Voxtral은 음성 인터페이스를보다 신뢰할 수 있고 액세스 할 수 있도록 인간-컴퓨터 상호 작용에 혁명을 일으키는 새로운 오픈 소스 음성 이해 모델을 시작했습니다. Apache 2.0 라이센스에 따라 24B 및 3B 변형으로 제공되는 이러한 최첨단 모델은 현재 독점 및 오픈 소스 시스템의 한계를 해결하여 뛰어난 전사 및 깊은 이해 기능을 제공합니다.

Voxtral은 고비용, 폐쇄 된 API와 덜 정확한 오픈 소스 대안 사이의 간격을 연결합니다. 그것은 비슷한 API의 가격의 절반 미만으로 최첨단 정확도와 기본 의미 론적 이해를 제공합니다. 이 모델은 전사의 경우 최대 30 분, 이해를 위해 40 분, 32k 토큰 컨텍스트 길이를 특징으로하는 장기 오디오를 40 분 동안 지원합니다. 또한 내장 Q & A 및 요약, 널리 사용되는 언어 (영어, 스페인어, 프랑스어, 포르투갈어, 힌디어, 독일어, 네덜란드어, 이탈리아어)에 대한 자동 언어 탐지, 음성 명령에서 직접 기능을 제공합니다.

Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다
이미지 : 미스트랄

벤치 마크에서 Voxtral은 Whisper Large-V3와 같은 주요 오픈 소스 모델보다 훨씬 능가하며 GPT-4O Mini Transcribe 및 Gemini 2.5 스피치 전사 및 오디오 이해에서 강력하게 경쟁합니다. 예를 들어, Voxtral Mini Transcribe는 Openai Whisper보다 비용 효율적이며 Voxtral Small은 더 낮은 가격대에서 Elevenabs Scribe의 성능과 일치합니다. 이 모델은 또한 Mistral Small 3.1 백본에서 강력한 텍스트 이해 기능을 유지합니다.

Voxtral 모델은 Hugging Face 및 API를 통해 지역 다운로드 할 수 있으며 가격은 분당 $ 0.001로 시작합니다. 엔터프라이즈 기능에는 개인 배포, 도메인 별 미세 조정 및 스피커 식별 및 감정 탐지와 같은 고급 컨텍스트 기능이 포함됩니다. 향후 업데이트에는 스피커 세분화, 오디오 마크 업 및 워드 레벨 타임 스탬프가 포함되어 유틸리티가 더욱 향상됩니다.

  Mountain Dew FFXIV 프로모션: Mountain Zu 마운트를 교환하는 방법은 무엇입니까?

Source: Mistral은 Voxtral : 오픈 소스 음성 이해 모델을 시작합니다