텍스트 프롬프트를 기반으로 Meta의 MusicGen은 기존 곡에 선택적으로 정렬되는 간단한 새 음악 작곡을 만들 수 있습니다.
MusicGen은 오늘날 사용되는 대부분의 언어 모델과 마찬가지로 Transformer 모델을 기반으로 합니다. MusicGen은 언어 모델이 구문에서 다음 문자를 예측하는 방식과 유사한 방식으로 음악의 다음 부분을 예측합니다. 연구원들이 사용하는 메타의 엔코덱 오디오 토크나이저는 오디오 데이터를 더 작은 조각으로 분해합니다. MusicGen은 병렬로 토큰 처리를 수행하는 빠르고 효과적인 단일 단계 접근 방식입니다.
훈련을 위해 승무원이 사용했습니다. 20,000시간 승인된 음악의 그들은 사용했다 10,000고음질 오디오 특히 Shutterstock 및 Pond5 음악 데이터뿐만 아니라 내부 데이터 세트의 녹음.

뮤직젠: 뭔데?
오늘날 사용되는 대부분의 언어 모델과 마찬가지로 MusicGen은 Transformer 모델을 사용하여 구성됩니다. 언어 모델이 문장의 후속 문자를 예측하는 방식과 유사하게 MusicGen은 음악의 다음 부분을 예측합니다.
오디오 데이터는 연구원이 Meta의 EnCodec 오디오 토크나이저를 사용하여 더 작은 비트로 나뉩니다. MusicGen은 토큰을 병렬로 빠르고 효과적으로 처리하는 단일 단계 방식입니다.
디자인의 효율성과 생산 속도와 함께 MusicGen은 텍스트 및 음악 큐를 모두 관리하는 능력이 뛰어납니다. 오디오 파일의 음악은 텍스트에 설정된 기본 스타일을 따릅니다.
예를 들어 다른 음악 장르에서는 멜로디의 방향을 정확하게 들을 수 없습니다. 생성에 대한 광범위한 가이드 역할만 하며 출력에 정확히 복제되지는 않습니다.
다른 많은 모델이 텍스트 생성, 음성 합성, 생성된 시각 효과, 심지어 작은 영화까지 실행하고 있음에도 불구하고 대중이 접근할 수 있는 고품질 음악 제작의 예는 많지 않았습니다.

뮤직젠: 어떻게 사용하나요?
사용자는 다음을 사용하여 MusicGen을 테스트할 수 있습니다. 포옹 얼굴 API, 하지만 한 번에 사용하는 사용자 수에 따라 음악을 제작하는 데 시간이 걸릴 수 있습니다. 훨씬 더 빠른 결과를 위해 Hugging Face 웹 사이트를 사용하여 자신의 모델 인스턴스를 만들 수 있습니다. 필요한 지식과 도구가 있는 경우 코드를 다운로드하여 직접 실행할 수 있습니다.
대부분의 사람들처럼 원하는 경우 온라인 버전을 사용하는 방법은 다음과 같습니다.
- 시작하다 웹 브라우저.
- Hugging Face에 대한 웹 페이지를 방문하십시오.
- 오른쪽 상단에서 선택 공백.
- 검색 “뮤직젠” 상자에.
- 하나를 찾습니다 페이스북 출판.
- 왼쪽 상자에 메시지를 입력합니다.
- 선택하다 “생성하다”.
그것이 당신이 알아야 할 모든 것입니다!
MusicGen은 머리카락으로 MusicLM을 이겼습니다.
세 가지 크기의 모델—3억(300M), 15억(1.5B), 그리고 33억 (3.3B) 매개변수 – 연구 저자가 테스트했습니다. 그만큼 15억 매개 변수 모델은 인간에 의해 최고로 판단되었지만 더 큰 모델이 더 나은 품질의 사운드를 생성한다는 것을 발견했습니다. 한편, 33억 매개변수 모델은 텍스트 입력과 오디오 출력을 일치시킬 때 더 정확하게 수행됩니다.

MusicGen은 Riffusion, Mousai, MusicLM 및 Noise2Music과 같은 다른 음악 모델과 비교하여 음악이 단어와 얼마나 잘 일치하고 구성이 얼마나 믿을 수 있는지를 측정하는 객관적 및 주관적 측정에서 더 나은 점수를 얻습니다. 일반적으로 모델은 Google의 MusicLM보다 약간 낫습니다.
코드와 모델은 Meta에서 Github의 오픈 소스로 사용할 수 있으며 상업적 사용이 허용됩니다. Huggingface에 데모가 있습니다.
ChatGPT 공유 링크가 무엇인지 아십니까?
Source: 메타의 MusicGen이란 무엇이며 어떻게 사용하나요?





