안정적인 확산에서 Google Dreambooth AI를 사용하는 방법은 무엇입니까?

Google DreamBooth AI가 있습니다. OpenAI의 DALL-E 2 또는 StabilityAI의 Stable Diffusion 및 Midjourney와 같은 새로 출시된 기술은 이미 인터넷에 폭풍을 일으키고 있습니다. 이제 결과를 사용자 정의할 때입니다. 그러나 어떻게? Boston University와 Google에서 답변을 제공했으며 귀하를 위해 자세히 설명했습니다.

DreamBooth는 그림의 주제를 인식하고 원본 컨텍스트에서 분해한 다음 원하는 새로운 컨텍스트로 정확하게 합성하는 기능이 있습니다. 또한 현재 AI 그림 생성기와 함께 사용할 수 있습니다. 계속해서 AI 기반 상상력에 대해 자세히 알아보세요.

Google DreamBooth AI 설명

Google은 새로운 텍스트-이미지 확산 모델인 DreamBooth를 발표했습니다. Google DreamBooth AI는 텍스트 프롬프트를 지침으로 사용하여 다양한 조건에서 사용자가 선택한 주제의 다양한 이미지를 만들 수 있습니다.

사전 훈련된 텍스트-이미지 모델을 수정하는 혁신적인 방법인 DreamBooth는 Boston University와 Google의 연구팀에 의해 만들어졌습니다. 전반적으로 아이디어는 다소 간단합니다. 희귀 토큰 ID가 사용자가 만들고 싶은 특정 주제에 연결되도록 언어 비전 사전을 확장하려는 것입니다.

Google DreamBooth AI의 주요 기능:

3-5장의 사진으로 DreamBooth AI는 텍스트-이미지 모델을 향상시킬 수 있습니다.
DreamBooth AI를 사용하면 피사체의 완전하고 사실적인 이미지를 생성할 수 있습니다.
또한 DreamBooth AI는 다양한 관점에서 피사체의 이미지를 생성할 수 있습니다.

모델의 주요 목표는 선택한 주제의 인스턴스를 사실적으로 표현하고 이를 텍스트-이미지 확산 모델에 연결하는 데 필요한 도구를 사용자에게 제공하는 것입니다. 결과적으로 이 방법은 다양한 상황에서 문제를 요약하는 데 효과적인 것으로 보입니다.

Google의 DreamBooth는 DALL-E 2, Stable Diffusion 및 Midjourney와 같이 최근에 출시된 다른 텍스트-이미지 도구와는 다소 다른 접근 방식을 취합니다. 사용자가 주제 사진을 더 잘 제어할 수 있도록 한 다음 텍스트 기반 입력을 사용하여 확산 모델을 제어할 수 있습니다.

DreamBooth는 또한 몇 장의 입력 사진으로 다양한 카메라 각도에서 주제를 보여줄 수 있습니다. 인공 지능(AI)은 입력 사진이 다른 관점에서 주제에 대한 데이터를 제공하지 않더라도 주제의 품질을 예측하고 텍스트 안내 탐색에서 합성할 수 있습니다.

이 모델은 또한 언어 신호를 사용하여 다른 분위기, 액세서리 또는 색상 변화를 만들기 위해 사진을 합성할 수 있습니다. 이러한 기능을 통해 DreamBooth Google AI는 사용자에게 더 많은 개인화와 창의적인 자유를 제공합니다.

DreamBooth 기사 “DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정”은 하나의 새로운 문제와 접근 방식을 제공한다고 주장합니다.

주제 중심의 생성은 새로운 문제입니다.

새로운 Blox Fruits 코드 2024 출시

급하게 촬영된 피사체의 이미지 몇 개가 주어지면 목표는 핵심 시각적 특성에 대한 충실도를 유지하면서 다양한 설정에서 피사체에 대한 새로운 표현을 만드는 것입니다.

구글의 응용 드림부스 AI

상위 Google DreamBooth AI 애플리케이션은 다음과 같습니다.

재맥락화
예술 작품
표현 조작
참신한 뷰 합성
액세서리
속성 수정

Photoshop과 헤어질 준비가 되셨습니까? 에서 만든 유익한 그림을 사용하여 더 자세히 살펴 보겠습니다. 나타니엘 루이즈 그리고 DreamBooth 승무원.

재맥락화

고유 식별자와 클래스 명사를 포함하는 문구를 훈련된 모델에 제공함으로써 DreamBooth AI는 특정 주제 인스턴스에 대해 고유한 그림을 생성할 수 있습니다. DreamBooth AI는 배경을 수정하는 대신 이전에 볼 수 없었던 혁신적인 자세, 관절 및 장면 구조로 주제를 생성할 수 있습니다. 사실적인 그림자와 반사뿐만 아니라 인접한 물체와의 피사체의 상호 작용. 이것은 그들의 전략이 단순히 관련 정보를 추정하거나 검색하는 것 이상을 제공한다는 것을 보여줍니다.

예술 작품

“의 동상” 중에서 선택할 수 있는 옵션이 주어진 경우 [V] [class noun] 의 스타일로 [great sculptor]”와 “그림 [V] [class noun] 의 스타일로 [famous painter],” 어느 쪽을 선택하시겠습니까? DreamBooth AI를 사용하여 독창적인 창의적 표현을 만들 수 있습니다.

특히 이 작업은 원본 장면의 의미를 유지하면서 원본 장면에 다른 그림의 스타일을 적용하는 스타일 전송과 다릅니다. 대조적으로, AI는 창의적인 스타일에 따라 주제 인스턴스 세부 정보 및 정체성 보존과 함께 큰 장면 변경을 달성할 수 있습니다.

표현 조작

Google DreamBooth AI의 방법을 사용하면 원본 사진 세트와 다른 표정으로 피사체의 새로운 사진을 생성할 수 있습니다.

참신한 뷰 합성

Google DreamBooth AI는 여러 가지 독특한 관점에서 주제를 묘사할 수 있습니다. 예를 들어 DreamBooth AI는 다양한 카메라 각도를 사용하여 동일한 고양이의 신선한 이미지를 생성할 수 있으며 믿을 수 있을 정도로 상세한 모피 패턴으로 가득합니다.

모델이 고양이의 정면 사진 4장만 가지고 있음에도 불구하고 DreamBooth AI는 이 같은 고양이를 옆에서, 아래에서 또는 위에서 본 적이 없음에도 불구하고 이러한 창의적인 관점을 만들기 전에 수업에서 정보를 추론할 수 있습니다.

액세서리

개체를 장식하는 DreamBooth AI 기능의 흥미로운 측면은 생성 모델의 강력한 구성 사전에서 비롯됩니다. 설명을 위해 모델에 “a [V] [class noun] 착용 [accessory]”. 이렇게 하면 강아지에게 다양한 물건을 매력적으로 부착할 수 있습니다.

속성 수정

DreamBooth AI는 대상 인스턴스의 속성을 변경할 수 있습니다. 색상 형용사는 “a [color adjective] [V] [class noun]”. 이로 인해 주제에 대한 신선하고 생생한 사례가 생성될 수 있습니다. 몇 가지 요구 사항이 있지만 이러한 특성은 DreamBooth AI를 활용하는 방법도 설명합니다.

이제 PlayStation 5에서 Discord 베타를 사용할 수 있습니다.

Google DreamBooth AI를 사용 중이신가요?

DreamBooth AI 기술은 피사체(예: 특정 개) 및 이와 관련된 클래스 이름(예: “개”)에 대한 적은 수의 사진(일반적으로 3-5개의 이미지가 적절함)을 입력으로 사용합니다. 그런 다음 조정되고 “개인화”된 텍스트-이미지 모델을 생성하고 주제에 대한 고유한 ID를 인코딩합니다. 다양한 맥락에서 주제를 종합하기 위해 DreamBooth AI는 추론 시 고유한 식별 정보를 다양한 구문에 삽입할 수 있습니다. 피사체의 이미지가 3~5개 있는 경우 두 단계로 텍스트 대 이미지 확산을 조정할 수 있습니다.

특정 코드와 주제가 속한 클래스 이름이 포함된 텍스트 프롬프트(예: [T] canine’)은 저해상도 텍스트-이미지 모델을 향상시키는 데 사용됩니다. 또한 그들은 클래스에 대한 모델의 의미론적 사전을 활용하고 텍스트 프롬프트에 클래스 이름을 넣어 주제 클래스의 구성원인 예제 범위를 생성하도록 권장하는 클래스별 사전 보존 손실을 사용합니다(예: , “개 사진”).
우리는 입력 이미지 세트에서 저해상도 및 고해상도 사진 쌍을 사용하여 초해상도 구성요소를 조정하여 뛰어난 충실도를 달성합니다.

첫 번째 Dreambooth는 Imagen의 텍스트-이미지 패러다임을 사용하여 만들어졌습니다. 그러나 Imagen의 모델 및 가중치는 사용할 수 없습니다. 그러나 몇 가지 예를 사용하여 Dreambooth on Stable Diffusion을 통해 사용자는 텍스트-이미지 모델을 조정할 수 있습니다.

안정적인 확산에서 Google Dreambooth AI를 사용하는 방법은 무엇입니까?

안정적인 확산에서 DreamBooth AI를 활용하려면 다음 단계를 따르십시오.

Textual Inversion 저장소 또는 원본 Stable Diffusion 저장소의 설정 지침에 따라 LDM 환경을 설정하십시오.
안정적인 확산 모델을 미세 조정하려면 사전 훈련된 안정적인 확산 모델을 받고 해당 지침을 준수해야 합니다. HuggingFace에서 가중치를 다운로드할 수 있습니다.
Dreambooth의 미세 조정 방법에서 요구하는 대로 정규화를 위해 일련의 이미지를 준비합니다.
다음 명령을 사용하여 연습할 수 있습니다.

python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml
                -t
                --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt 
                -n <job name>
                --gpus 0,
                --data_root /root/to/training/images
                --reg_data_root /root/to/regularization/images
                --class_word <xxx>

세대

교육 후 명령을 사용하여 개인화된 예를 얻을 수 있습니다.

삼

python scripts/stable_txt2img.py --ddim_eta 0.0
                                 --n_samples 8
                                 --n_iter 1
                                 --scale 10.0
                                 --ddim_steps 100 
                                 --ckpt /path/to/saved/checkpoint/from/training
                                 --prompt "photo of a sks <class>"

특히 class>는 class 단어(학습을 위한 class 단어)이고 sks는 식별자입니다(변경하려는 경우 선택한 것으로 대체해야 함). 자세한 내용은 DreamBooth Stable Diffusion용 GitHub 페이지를 참조하십시오.

이 Tinder 기능은 Instagram에서 테스트 중입니다.

Dreambooth AI의 한계

DreamBooth AI의 한계는 다음과 같습니다.

언어 드리프트
과적합
보존 손실

더 자세히 살펴보겠습니다.

언어 드리프트

높은 수준의 세부 사항으로 항목을 반복하는 것은 명령 프롬프트에 의해 방해를 받습니다. DreamBooth는 주제의 컨텍스트를 변경할 수 있지만 모델이 실제 주제를 변경하려는 경우 프레임에 문제가 있습니다.

과적합

또 다른 문제는 출력 그림이 원본 이미지에 과적합되는 경우입니다. 입력된 사진이 충분하지 않은 경우 주제가 평가되지 않거나 업로드된 이미지의 컨텍스트와 결합될 수 있습니다. 이는 홀수 세대에 대한 컨텍스트를 요청할 때도 발생합니다.

보존 손실

환각 변화와 불연속 품질을 초래할 수 있는 다양한 주제 충실도뿐만 아니라 더 희귀하거나 더 복잡한 주제의 사진을 합성할 수 없다는 것은 추가 제한 사항입니다. 입력 컨텍스트는 입력 이미지의 주제에 자주 포함됩니다.

AI의 사회적 영향

DreamBooth 프로젝트의 목표는 다양한 설정에서 개인적인 주제(동물, 사물)를 합성하기 위한 실용적인 도구를 사용자에게 제공하는 것입니다. 표준 텍스트-이미지 알고리즘은 단어에서 이미지를 합성할 때 특정 측면으로 편향될 수 있지만 사용자가 선택한 주제를 더 잘 재현하는 데 도움이 됩니다. 그러나 악의적인 당사자는 유사한 이미지를 사용하여 사용자를 속이려고 할 수 있습니다. 다양한 생성 모델 방법 또는 콘텐츠 수정 기술이 이러한 만연한 문제를 나타냅니다.

결론

대부분의 텍스트-이미지 모델은 단일 텍스트 입력에서 출력을 생성하기 위해 수백만 개의 매개변수와 라이브러리가 필요합니다. DreamBooth는 서면 배경과 함께 3~5개의 주제 이미지를 입력하기만 하면 사용자가 콘텐츠를 더 쉽게 얻고 사용할 수 있습니다.

따라서 학습된 모델이 이미지에서 학습한 주제의 물질적 측면을 재사용하여 다른 설정 및 관점에서 복제하는 동안 주제의 독특한 특성이 보존될 수 있습니다. 대부분의 텍스트-이미지 변환 알고리즘은 특정 키워드에 의존하며 이미지를 표시할 때 특정 속성의 우선 순위를 지정할 수 있습니다. DreamBooth 사용자는 고유한 환경이나 시나리오에서 선택한 사람을 보고 사실적인 결과를 생성할 수 있습니다. 그러니 이제 그만 기다리세요. 지금 시도하십시오!

Stable Diffusion에서 Google Dreambooth AI를 사용하는 방법에 대한 이 기사를 즐겼기를 바랍니다. 그렇다면 DALL-E 2에서 아웃페인팅을 도입한 다른 기사(예: AI는 경계를 넘어 상상합니다) 또는 Stable Diffusion AI 아트 생성기: 프롬프트, 예제 및 실행 방법과 같은 다른 기사도 재미있게 읽으실 수 있을 것입니다.

Source: 안정적인 확산에서 Google Dreambooth AI를 사용하는 방법은 무엇입니까?