AI는 이제 음성 샘플에서 노래할 수 있습니다.

과학자들은 AI를 사용하여 음성 샘플에서 노래할 수 있는 새로운 신경망을 만들었습니다. 중국 개발자의 알고리즘은 그 사람의 평소 연설 녹음을 기반으로 한 사람의 노래 녹음을 합성하거나 반대로 수행하여 노래를 기반으로 음성을 합성할 수 있습니다. 알고리즘의 개발, 교육 및 테스트를 설명하는 기사가 있습니다. 출판 arXiv.org에서

최근에는 다음과 같은 음성 합성을 위한 신경망 알고리즘이 개발되고 있습니다. 웨이브넷 , 실제 사람과 구별하기 어려운 시스템을 만들 수 있습니다. 예를 들어, 2018년에 Google 보여주었다 리얼하게 말할 수 있을 뿐만 아니라 음성을 확인할 수 있는 사람의 소리(예: “음”)를 삽입할 수 있는 좌석 예약용 음성 비서. 결과적으로 회사는 대화 시작 시 사람이 아님을 경고하는 알고리즘도 가르쳐야 했습니다.

다른 신경망 알고리즘의 경우와 마찬가지로 음성 합성 시스템의 성공은 주로 아키텍처와 관련이 있지만 대부분 교육에 사용할 수 있는 많은 데이터와 관련이 있습니다. 노래를 합성하는 시스템을 만드는 것은 겉보기에는 비슷한 작업이지만 실제로는 사용 가능한 데이터 양이 현저히 적기 때문에 훨씬 더 복잡합니다.

2021년 최고의 안드로이드 롤플레잉 게임

노래 생성 시스템을 연구하는 많은 개발자들은 최근 알고리즘을 가르치기 위해 노래 샘플의 양을 줄이는 방법을 택했으며 이제 Tencent의 Dong Yu가 이끄는 중국 연구원 그룹은 음성에서 사실적인 노래 오디오 녹음을 생성할 수 있는 시스템을 만들었습니다. 시료.

https://www.youtube.com/watch?v=AnazWGADtnk

알고리즘은 Tencent의 이전 개발인 DurIAN 신경망을 기반으로 하며 실제 비디오 텍스트를 기반으로 말하는 발표자와 함께. 이제 그들은 오디오 샘플을 기반으로 음소를 생성하는 새로운 음성 인식 장치를 DuarIAN 앞에 배치했습니다.

저자는 1시간 30분의 노래와 28시간의 연설로 구성된 두 가지 독점 데이터 세트에서 알고리즘을 훈련했습니다. 훈련 후 그들은 합성된 노래의 현실성과 유사성을 평가한 14명의 지원자에 대해 알고리즘을 테스트했습니다. 그 결과, 테스트 중 하나는 현실성에서 3.8점, 유사성에서 3.65점을 받았습니다. 저자 출판 신경망 작업 샘플.