구축 속삭임옥스퍼드의 연구원들은 긴 형식의 음성 전사.
광범위한 온라인 데이터 세트의 가용성으로 인해 약한 감독 및 비감독 교육 접근 방식은 다음을 포함한 다양한 오디오 처리 작업에서 뛰어난 성능을 보여주었습니다. 목소리인식, 스피커인식, 연설분리그리고 예어스포팅.

Whisper와 WhisperX는 어떻게 작동합니까?
에서 만든 음성 인식 시스템 Whisper 옥스퍼드 연구원, 이 실질적인 정보를 더 큰 규모로 사용합니다. 기본 인코더-디코더 변환기의 약하게 감독된 사전 훈련이 다음을 사용하여 인식된 벤치마크에서 제로 샷 다국어 음성 전사를 달성할 수 있는 방법을 보여줍니다. 125,000시간의 영어 번역 데이터 그리고 680,000시간의 시끄러운 음성 훈련 데이터 96개의 추가 언어로.
대부분의 학술 벤치마크는 간단한 진술로 구성되지만 회의, 팟캐스트, 비디오와 같은 실제 상황에서는 몇 시간 또는 몇 분 동안 지속될 수 있는 긴 오디오의 전사가 자주 필요합니다.
에 사용된 변압기 설계 자동 음성 인식 (ASR) 모델은 메모리 제약으로 인해 임의로 긴 입력 오디오(Whisper의 경우 최대 30초)의 전사를 허용하지 않습니다.

최근 연구에서는 휴리스틱 슬라이딩 윈도우 방법을 사용합니다. 불완전한 오디오, 입력 세그먼트의 시작 또는 끝에 있는 경우 일부 단어가 누락되거나 잘못 표기될 수 있습니다. 그리고 겹치는 오디오모델이 동일한 음성을 두 번 처리할 때 일관되지 않은 전사가 발생할 수 있습니다.
Whisper는 다음을 결정하는 버퍼링된 전사 기술을 제시합니다. 입력 창을 얼마나 멀리 이동해야 하는지 기반으로 정확한 타임스탬프 예측. 이러한 방법은 한 창의 타임스탬프 부정확성이 후속 창에서 문제를 일으킬 수 있기 때문에 심각한 표류에 취약합니다.
그들은 이러한 오류를 근절하기 위해 여러 가지 직접 만든 휴리스틱을 사용하지만 자주 실패합니다. 단일 인코더-디코더를 사용하여 타임스탬프와 기록을 디코딩하는 Whisper의 연결된 디코딩, 자동 회귀 언어 생성과 관련된 일반적인 문제가 발생하기 쉽습니다.특히 환각과 반복.

긴 형식 및 기타 타임스탬프에 민감한 활동 화자 분할, 독순그리고 시청각 학습 버퍼링된 전사뿐만 아니라 이에 의해 악영향을 받습니다.
Whisper 논문은 교육 코퍼스의 상당한 부분이 다음으로 구성되어 있다고 주장합니다. 불완전한 데이터 (타임스탬프 정보가 없는 오디오 전사 쌍), |nottimestamps|> 토큰으로 표시됩니다. 음성 전사의 성능이 의도치 않게 희생됩니다. 덜 정확한 타임스탬프 불완전하고 시끄러운 전사 자료에서 확장할 때 예측.
결과적으로 추가 모듈을 사용할 때 음성과 대본이 적절하게 정렬되어야 합니다. 안에 “강제 정렬“, 음성 전사 및 오디오 파형은 단어 또는 음소 수준에서 동기화됩니다. 그만큼 히든 마르코프 모델 (HMM) 프레임워크 및 가능한 상태 정렬의 부산물은 음향 전화 모델의 훈련에 자주 사용됩니다.
외부 경계 수정 모델은 이러한 단어 또는 전화 번호의 타임스탬프를 수정하는 데 자주 사용됩니다. 급속한 확장으로 인해 딥러닝 기반 방법론일부 최근 연구에서는 종단 간 훈련된 모델을 사용하여 양방향 주의 매트릭스 또는 CTC 세분화를 적용하는 것과 같은 강제 정렬을 위해 딥 러닝 기술을 사용합니다.

최신 ASR 모델과 간단한 음소 인식 모델을 결합하여 추가 개선을 달성할 수 있습니다. 둘 다 중요한 대규모 데이터 세트를 사용하여 구축되었습니다.
WhisperX가 등장할 때
그들은 제안한다 위스퍼X, 이러한 문제에 대한 해결책으로 정확한 단어 수준 타임스탬프가 있는 긴 녹음의 정확한 음성 전사 기술입니다. 이외에 속삭이는 전사또한 다음 세 단계로 구성됩니다.
- 외부 VAD(Voice Activity Detection) 모델을 사용하여 수신 오디오를 사전 분할합니다.
- 결과 VAD 세그먼트는 활동량이 가장 적은 음성 영역에 경계가 있는 대략 30초 입력 청크로 분할 및 병합됩니다.
- 정확한 단어 수준 타임스탬프를 제공하려면 외부 음소 모델과의 정렬이 필요합니다.
AI 및 텍스트 기반 AI 챗봇의 등장으로 텍스트 음성 변환 및 음성 인식 프로그램에 대한 수요가 높아지고 있습니다. 이번 주에 ChatGPT 비디오 채팅 앱인 Call Annie AI가 이 증가하는 수요를 활용하기 위해 출시되었습니다. WhisperX의 가능성에 대한 미래는 아직 완전히 명확하지 않지만 진행 상황을 추적할 가치가 있다고 말할 수 있습니다.








