Microsoft의 텍스트 음성 변환 합성에 대한 Microsoft VALL-E가 회사에서 발행한 논문에서 발표되었습니다. 오디오 모델은 주어진 입력을 처리하는 데 3초 길이의 오디오 파일만 필요합니다.
오디오 코덱 코드를 중간 표현으로 활용하는 TTS(텍스트 음성 합성)를 위한 새로운 언어 모델 접근 방식인 Microsoft VALL-E가 Microsoft에서 막 출시되었습니다. 60,000시간의 영어 음성 데이터로 사전 훈련된 후 제로샷 상황에서 상황 내 학습 능력을 보여주었습니다.
Microsoft VALL-E는 음향 자극으로 작용하는 비스듬한 스피커의 3초 등록 녹음으로 고품질 개인화된 음성을 생성할 수 있습니다. 추가 구조 엔지니어링, 미리 설계된 음향 기능 또는 미세 조정 없이도 그렇게 합니다. 상황별 학습 및 프롬프트 기반 제로샷 TTS 접근 방식을 지원합니다. 마이크로소프트가 스피커 차원에서 일반화된 TTS 시스템을 구성하기 위해 상당한 양의 준지도 데이터를 사용했기 때문에 TTS에 대한 준지도 데이터의 확장이 충분히 활용되지 않은 것으로 보입니다.
Microsoft VALL-E로 무엇을 할 수 있습니까?
연구원에 따르면 Microsoft VALL-E는 “기존 신경 오디오 코덱 모델에서 파생된” 이산 코드를 사용하여 훈련된 “신경 코덱 언어 모델”입니다. 성명서에 따르면 “기존 시스템보다 수백 배 더 많은” 60,000시간의 음성으로 훈련되었습니다. 이러한 예는 인간의 말을 현실적으로 모방할 수 있는 AI가 한동안 주변에 있었음에도 불구하고 매우 명백한 로봇인 이전 시도와 대조적으로 설득력이 있습니다.
Microsoft VALL-E는 프롬프트의 연구원에 따르면 “화자의 감정과 청각 환경을 보존”할 수 있습니다. 인상적이지만 성우를 대체하기에는 기술이 아직 멀었다. 연기할 때 적절한 음색과 감정을 찾는 게 다르기 때문이다. 고급 버전의 Microsoft VALL-E도 숙련된 전문가만큼 성능을 발휘할 수는 없지만 기업은 종종 품질보다 비용 효율성을 우선시합니다.
Microsoft의 GitHub 데모에서 일부 샘플을 들을 수 있습니다.
마이크로소프트 VALL-E 기능
Microsoft VALL-E는 매우 새롭지만 이미 많은 기능을 갖추고 있습니다.
다양성의 합성: Microsoft VALL-E는 샘플링 기반 기술을 사용하여 개별 토큰을 생성하기 때문에 동일한 입력 텍스트에 대해 출력이 다릅니다. 따라서 다양한 랜덤 시드를 사용하여 다양한 개인화된 음성 샘플을 합성할 수 있습니다.
음향 환경 유지: Microsoft VALL-E는 화자 프롬프트의 음향 환경을 유지하면서 맞춤형 음성을 제공할 수 있습니다. 기준선과 비교하여 VALL-E는 더 많은 음향 변수가 있는 큰 데이터 세트에서 훈련됩니다. 오디오 및 필사본은 Fisher 데이터 세트의 샘플을 사용하여 생성되었습니다.
화자의 감성 유지: Emotional Voices Database를 예를 들어 오디오 프롬프트에 대한 리소스로 사용하여 Microsoft VALL-E는 화자 프롬프트의 감정적인 경향을 유지하면서 맞춤형 음성을 생성할 수 있습니다. 기존의 접근 방식은 감독된 감정 TTS 데이터 세트에서 음성과 전사 및 감정 레이블을 연관시켜 모델을 교육합니다. VALL-E는 제로샷 상황에서도 즉각적인 감정을 유지할 수 있습니다.
Microsoft VALL-E는 여전히 모델 구조, 데이터 적용 범위 및 합성 견고성에 문제가 있습니다.
Microsoft WALL-E는 어떻게 작동합니까?
Microsoft는 VALL-voice E의 합성 기술을 훈련하기 위해 Meta에서 만든 오디오 라이브러리인 LibriLight를 사용했습니다. 60,000시간 분량의 영어 음성 중 대부분은 LibriVox 공개 도메인 오디오북에서 가져온 것이며 7,000명 이상의 다른 사람들이 사용합니다. 3초 샘플의 음성은 만족스러운 결과를 얻기 위해 VALL-E에 대한 훈련 데이터의 음성과 매우 유사해야 합니다.
Microsoft는 VALL-E 예제 페이지에서 작동 중인 AI 모델의 수십 가지 오디오 예제를 제공합니다. 샘플 중 하나인 “Speaker Prompt”는 VALL-E가 모방하도록 지시받은 3초 분량의 오디오입니다. “Ground Truth”는 벤치마크로 사용되는 스피커에서 이전에 녹음된 발췌 부분입니다(실험의 “제어”와 비슷함). “VALL-E” 샘플은 VALL-E 모델의 출력이고 “Baseline” 샘플은 기존의 텍스트 음성 합성 방식으로 생성된 합성의 예입니다.
Microsoft VALL-E는 2023년의 첫 번째 주요 AI 프로젝트로 역사를 만들었지만 확실히 마지막은 아니었지만 기술 대기업은 2022년 마지막 주에 게시된 OpenAI Point-E를 재정적으로 지원했습니다.
Source: Microsoft VALL-E 설명: 음성 DALL-E