Stable Audio Open은 AI 기반 사운드 생성에 큰 발전을 가져왔습니다.
그 여정은 혁신적인 AI 아트 생성기인 Stable Diffusion을 만든 것으로 가장 잘 알려진 회사인 Stability AI에서 시작됩니다. Stability AI는 인공 지능 및 기계 학습에 대한 전문 지식을 활용하여 이제 Stable Audio Open을 통해 청각 영역에 진출했습니다. 이 생성 모델은 오랫동안 기술자와 음악가 모두에게 흥미를 불러일으켰던 개념인 텍스트 설명을 기반으로 사운드와 짧은 음악 작품을 생성하도록 설계되었습니다.
기계가 예술을 만들어낸다는 생각은 새로운 것이 아니다. 역사적으로 컴퓨터에게 음악을 작곡하거나 시각 예술을 제작하도록 가르치려는 다양한 시도가 있었습니다. AI 음악 생성의 초기 노력은 당시의 기술로 인해 제한되는 경우가 많았으며, 그 결과 실용적이기보다는 참신한 초보적인 출력이 탄생했습니다. 그러나 AI와 머신러닝의 발전으로 인공지능을 통해 정교하고 미학적으로 즐거운 음악을 만들 수 있는 가능성이 극적으로 높아졌습니다. Stability AI의 시각적 생성 모델에서 오디오 생성 모델로의 여정은 AI 개발의 광범위한 추세를 반영하는 흥미로운 진화를 나타냅니다.

Stable Audio Open은 이전 AI 프로젝트에서 확립한 원칙을 기반으로 하지만 로열티 없는 녹음에 중점을 두어 한 단계 더 나아갑니다. 이러한 강조는 생성된 콘텐츠가 법적으로 건전하고 광범위한 사용자가 액세스할 수 있음을 보장합니다.
텍스트 설명을 텍스트 설명으로 변환하는 모델의 기능 최대 47초 길이의 오디오 클립 그것은 그것이 겪은 정교한 훈련의 증거입니다. 약 486,000개의 샘플 활용 Freesound 및 Free Music Archive와 같은 소스의 이 모델은 AI를 창의적으로 사용할 수 있는 방법에 대한 새로운 개척지를 나타냅니다.
안정적인 오디오 오픈이란 무엇입니까?
Stable Audio Open의 핵심 기능은 다음과 같습니다. 텍스트 설명을 해석하여 해당 오디오 조각 생성. 이러한 스니펫은 Suno AI와 마찬가지로 드럼 비트부터 악기 리프, 주변 소리 및 멀티미디어 애플리케이션에 적합한 다양한 제작 요소에 이르기까지 다양합니다.
설명은 “처리된 스튜디오에서 연주되는 록 비트, 어쿠스틱 키트에서 드럼 연주”와 같은 특정 스타일을 지정할 수 있으며 모델은 그런 다음 이 설명과 일치하는 오디오 클립을 생성합니다.. 이 프로세스는 직관적이고 다재다능하므로 빠르고 구체적인 사운드 요소가 필요한 제작자에게 귀중한 도구입니다.
모델 훈련에는 광범위한 내용이 포함되었습니다. 잘 알려진 무료 음악 라이브러리의 486,000개 샘플로 구성된 데이터세트. 이 강력한 데이터 세트는 모델의 다양한 출력 기능을 위한 기반을 제공하여 광범위한 사운드와 음악 스타일을 포괄할 수 있습니다. 그러나 데이터세트의 한계로 인해 모델 성능이 결정되기도 합니다. 예를 들어 Stability AI는 모델이 모든 음악 스타일과 문화적 표현에서 동일하게 잘 작동하지 않을 수 있다는 점을 인정합니다. 이는 훈련 데이터의 본질적인 편견으로 인해 발생하며, 이는 주로 특정 스타일과 문화를 다른 것보다 특징으로 합니다.
Stable Audio Open의 또 다른 주목할만한 기능은 오픈 소스 자연. 이를 통해 사용자는 자신의 오디오 데이터로 모델을 미세 조정하고 특정 요구 사항에 맞게 조정할 수 있습니다. 예를 들어, 드러머는 자신의 드럼 녹음을 입력하여 자신의 독특한 스타일에 꼭 맞는 새로운 비트를 생성하는 모델의 능력을 개선할 수 있습니다. 이러한 사용자 정의 가능성으로 인해 Stable Audio Open은 일반적인 사운드 생성을 위한 도구일 뿐만 아니라 특별한 요구 사항이 있는 전문가를 위한 고도로 적응 가능한 자산이 됩니다.

제약과 논란
혁신적인 기능에도 불구하고 Stable Audio Open은 한계가 있다.
한 가지 중요한 제한 사항은 정규곡을 프로듀싱할 수 없음, 멜로디 또는 보컬을 고품질로 재생합니다. 이 모델은 완전한 음악 작곡보다는 짧은 오디오 클립과 특정 사운드 요소에 최적화되어 있습니다. 전체 노래를 만들려는 사용자를 위해 Stability AI는 아마도 더 고급 기능을 제공하는 프리미엄 Stable Audio 서비스를 권장합니다.
게다가 Stable Audio Open은 상업적인 용도로 사용할 수 없습니다. 서비스 약관에서는 생성된 콘텐츠를 상업적 목적으로 사용하는 것을 명시적으로 금지하고 있으며, 이로 인해 일부 잠재적 사용자의 관심이 제한될 수 있습니다. 이러한 제한으로 인해 모델은 오픈 소스 정신에 부합하면서도 디지털 시대의 저작권 및 상업적 사용 탐색의 복잡성을 반영하는 개인 및 비상업적 창의적 프로젝트를 위한 도구로 남아 있습니다.
로열티 없는 녹음에 중점을 둔 Stability AI의 목표는 AI 생성 콘텐츠 및 저작권을 둘러싼 논란의 여지가 있는 일부 문제를 회피하는 것입니다. 그러나 AI 모델 훈련을 위해 저작물을 사용하는 것에 대한 광범위한 논쟁은 아직 해결되지 않은 상태로 남아 있습니다. 이 문제에 대한 의견 불일치로 Stability AI의 생성 오디오 담당 부사장인 Ed Newton-Rex가 사임한 것은 업계 내 지속적인 긴장을 강조합니다. Newton-Rex의 퇴임은 Stability AI와 같은 회사가 AI가 할 수 있는 작업의 경계를 넓히면서 혁신의 법적, 윤리적 영향을 탐색하면서 직면하는 과제를 강조합니다.

미래의 창의성 소리가 여기에 있습니다
안정적인 오디오 오픈(Stable Audio Open)은 창의적인 목적을 위한 AI 사용의 놀라운 발전. 텍스트 설명에서 고품질의 짧은 오디오 클립을 생성함으로써 음악가, 영화 제작자 및 콘텐츠 제작자에게 새로운 가능성을 열어줍니다. 사용자 정의 데이터로 모델을 미세 조정하는 기능은 유용성을 더욱 향상시켜 광범위한 창의적 응용 프로그램을 위한 유연한 도구로 만듭니다.
r에 대한 모델의 의존도로열티 없는 녹음 생성된 콘텐츠가 디지털 시대에 중요한 고려 사항인 저작권 침해 문제로부터 자유롭다는 것을 보장합니다. 그러나 정규곡을 제작할 수 없고 상업적 사용에 대한 제한과 같은 모델의 한계는 AI 오디오 생성에서 지속적인 과제와 개선이 필요한 영역을 강조합니다.
Stability AI의 약속 오픈소스 개발은 칭찬할 만하다, 이를 통해 사용자는 Stable Audio Open의 기능을 탐색하고 확장할 수 있습니다. 이 접근 방식은 사용자가 모델의 발전에 기여하고 특정 요구 사항에 맞게 조정할 수 있는 협업 환경을 조성합니다. 더 많은 사용자가 모델을 실험하고 개선함에 따라 잠재적인 애플리케이션이 확장되어 AI 생성 오디오 분야에서 추가적인 혁신을 주도할 가능성이 높습니다.
여기 링크를 사용하여 예제를 확인해 보세요.
주요 이미지 크레딧: Stockgiu/Freepik
Source: 안정적인 Audio Open을 통해 그 어느 때보다 쉽게 음악적 걸작을 작곡할 수 있습니다.








