프랑스 AI 회사 Mistral은 음성 AI 비서 및 고객 지원과 같은 엔터프라이즈 애플리케이션을 위해 설계된 Voxtral TTS라는 오픈 소스 텍스트 음성 변환 모델을 출시했습니다. 이번 개발로 Mistral은 ElevenLabs, Deepgram 및 OpenAI를 포함한 경쟁업체와 직접적으로 경쟁할 수 있게 되었습니다.
Voxtral TTS는 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원합니다. 이 모델은 다양한 에지 장치에 적합한 유연한 음성 모델에 대한 고객 요구를 충족하여 고성능을 유지하는 비용 효율적인 솔루션을 제공하는 것을 목표로 합니다.
Mistral AI의 과학 운영 부사장인 Pierre Stock은 “고객들이 음성 모델을 요구해 왔습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 장치에 적합한 소형 음성 모델을 구축했습니다.”라고 말했습니다. 그는 이 모델이 가격 경쟁력이 있으면서도 최첨단 성능을 제공한다고 강조했습니다.
이 모델을 사용하면 5초 미만의 샘플로 사용자 정의 음성을 조정할 수 있습니다. 악센트나 음성 불규칙성과 같은 미묘한 특성을 포착합니다. 또한 Ministral 3B를 기반으로 하는 Voxtral TTS는 음성 품질 저하 없이 언어를 전환할 수 있어 실시간 번역 및 더빙에 적합합니다.
모델의 성능 지표가 주목할 만합니다. 500자의 10초 샘플에 대해 TTFA(Time-to-First-Audio)가 90밀리초이고 RTF(실시간 요소)가 6x이므로 약 1.6초 안에 클립을 렌더링할 수 있습니다.
이번 출시는 Mistral이 2023년 초에 대규모 배치 처리와 짧은 지연 시간의 실시간 사용 사례를 목표로 두 가지 전사 모델을 도입한 데 따른 것입니다. Voxtral TTS는 기업에 포괄적인 음성 제품 제품군을 제공하려는 Mistral 전략의 일부입니다.
Stock은 “우리는 오디오, 텍스트, 이미지를 포함한 다중 모드 입력 스트림을 처리할 수 있는 엔드투엔드 플랫폼을 보유할 계획”이라고 향후 계획을 설명했습니다. 이 플랫폼은 통합된 시스템에서 처리되는 정보를 향상시키기 위한 것입니다.
<시간 />








