과학자들은 AI를 사용하여 음성 샘플에서 노래할 수 있는 새로운 신경망을 만들었습니다. 중국 개발자의 알고리즘은 그 사람의 평소 연설 녹음을 기반으로 한 사람의 노래 녹음을 합성하거나 반대로 수행하여 노래를 기반으로 음성을 합성할 수 있습니다. 알고리즘의 개발, 교육 및 테스트를 설명하는 기사가 있습니다. 출판 arXiv.org에서

최근에는 다음과 같은 음성 합성을 위한 신경망 알고리즘이 개발되고 있습니다. 웨이브넷 , 실제 사람과 구별하기 어려운 시스템을 만들 수 있습니다. 예를 들어, 2018년에 Google 보여주었다 리얼하게 말할 수 있을 뿐만 아니라 음성을 확인할 수 있는 사람의 소리(예: “음”)를 삽입할 수 있는 좌석 예약용 음성 비서. 결과적으로 회사는 대화 시작 시 사람이 아님을 경고하는 알고리즘도 가르쳐야 했습니다.

AI는 이제 음성 샘플에서 노래할 수 있습니다.

다른 신경망 알고리즘의 경우와 마찬가지로 음성 합성 시스템의 성공은 주로 아키텍처와 관련이 있지만 대부분 교육에 사용할 수 있는 많은 데이터와 관련이 있습니다. 노래를 합성하는 시스템을 만드는 것은 겉보기에는 비슷한 작업이지만 실제로는 사용 가능한 데이터 양이 현저히 적기 때문에 훨씬 더 복잡합니다.

  2023년 인스타그램 트렌드 예측 리포트가 공개되었습니다.

노래 생성 시스템을 연구하는 많은 개발자들은 최근 알고리즘을 가르치기 위해 노래 샘플의 양을 줄이는 방법을 택했으며 이제 Tencent의 Dong Yu가 이끄는 중국 연구원 그룹은 음성에서 사실적인 노래 오디오 녹음을 생성할 수 있는 시스템을 만들었습니다. 시료.

https://www.youtube.com/watch?v=AnazWGADtnk

알고리즘은 Tencent의 이전 개발인 DurIAN 신경망을 기반으로 하며 실제 비디오 텍스트를 기반으로 말하는 발표자와 함께. 이제 그들은 오디오 샘플을 기반으로 음소를 생성하는 새로운 음성 인식 장치를 DuarIAN 앞에 배치했습니다.