Apple은 사용자가 자연어 명령을 통해 이미지를 편집할 수 있는 혁신적인 오픈 소스 AI 모델인 Apple MGIE를 도입하여 인공 지능 분야에서 획기적인 발전을 이루었습니다. MLLM 기반 이미지 편집(MLLM-Guided Image Editing)의 약자인 MGIE는 다중 모드 MLLM(대형 언어 모델)의 기능을 활용하여 사용자 명령을 해석하고 놀라운 정확도로 픽셀 수준 조작을 수행합니다.

이 모델은 Photoshop 스타일 수정, 글로벌 사진 최적화, 로컬 편집 등 광범위한 편집 기능을 자랑합니다. 즉, 사용자는 간단한 텍스트 명령으로 이미지를 쉽게 향상할 수 있으므로 광범위한 사진 편집 지식이 없어도 전문가 수준의 편집 기능을 만들 수 있습니다.

MGIE의 개발은 Apple과 캘리포니아 대학교 산타바바라 캠퍼스 연구팀 간의 획기적인 협력의 결과입니다. 이 모델은 AI 연구를 위한 최고의 플랫폼인 권위 있는 ICLR(International Conference on Learning Representations) 2024에서 승인된 연구 논문에서 발표되었습니다. 이 논문은 경쟁력 있는 추론 효율성을 유지하면서 자동 측정 및 인간 평가를 개선하는 데 있어 MGIE의 인상적인 효율성을 보여줍니다.

애플 엠지
Apple MGIE는 기계 학습을 활용하여 사용자가 자연어 지침을 사용하여 이미지를 편집할 수 있도록 하는 혁신적인 이미지 편집 시스템입니다. (이미지 제공)

애플 MGIE란 무엇인가?

Apple MGIE는 기계 학습을 활용하여 사용자가 자연어 지침을 사용하여 이미지를 편집할 수 있도록 하는 혁신적인 이미지 편집 시스템입니다. 이 혁신적인 기술을 통해 사용자는 이미지에 원하는 변경 사항을 간단히 설명할 수 있으며 MGIE는 자동으로 수정 사항을 적용하므로 복잡한 편집 도구나 메뉴가 필요하지 않습니다.

  MSI, Intel 400 시리즈 마더보드에 크기 조정 가능-BAR 기술 추가

Midjourney, StableDiffusion 및 DALL-E와 같은 다른 최첨단 AI 이미지 도구와 유사하게 Apple MGIE는 인간의 의도와 이미지 조작 사이의 격차를 해소합니다. MGIE는 다중 모드 학습 기능을 활용하여 시각적 정보(이미지 자체)와 텍스트 정보(사용자 지침)를 모두 이해할 수 있으므로 픽셀 수준 조작을 놀라운 정확도로 수행할 수 있습니다.

Apple MGIE는 이미지 편집 분야의 판도를 바꾸는 도구로, 이미지를 향상하고 조작할 수 있는 사용자 친화적이고 효율적인 방법을 제공합니다. 전문 사진작가, 그래픽 디자이너, 소셜 미디어 영향력자 등 MGIE는 청중에게 지속적인 인상을 남길 멋진 이미지를 만드는 데 도움을 줄 수 있습니다.

애플 엠지
Apple MGIE는 MLLM(다중 모드 대형 언어 모델)의 강력한 기능을 활용하여 놀라운 정확도로 사용자 명령을 해석하고 픽셀 수준 조작을 수행합니다. (이미지 제공)

Apple MGIE는 어떻게 작동하나요?

Apple MGIE는 자연어 처리 및 기계 학습을 활용하여 사용자가 간단하고 설명적인 명령을 사용하여 이미지를 편집할 수 있도록 합니다. 시스템은 사용자의 의도를 이해한 다음 이미지를 조작하여 원하는 변경 사항을 정확하게 반영하는 방식으로 작동합니다.

다음은 MGIE 작업 흐름에 대한 분석입니다.

  • 명령 입력: 사용자가 “이 이미지의 하늘을 더 파랗게 만드세요”, “이 사진에서 빨간 자동차를 제거하세요” 등 쉬운 영어로 원하는 편집 내용을 설명합니다.
  • 의도 이해: MGIE의 고급 언어 모델은 사용자의 지시를 해독하여 원하는 특정 개체, 속성 및 수정 사항을 식별합니다.
  • 시각적 이해: 동시에 MGIE는 이미지를 분석하여 핵심 요소와 관계를 파악합니다.
  • 안내 편집: 언어적 이해와 시각적 이해를 결합한 MGIE는 사용자의 명령을 정확하게 반영하도록 이미지를 지능적으로 조작합니다. 맹목적으로 지시를 따르지는 않지만 상황을 해석하고 합리적인 조정을 할 수 있습니다.
  MSI는 게임 주변기기의 새로운 완전한 세트를 소개합니다

MGIE의 핵심 개념은 인간의 의도와 이미지 조작 사이의 격차를 해소하여 모든 사람이 이미지 편집에 더 쉽게 접근하고 효율적으로 사용할 수 있도록 하는 것입니다. MGIE를 사용하면 사용자는 간단한 자연어 명령을 사용하여 이미지를 쉽게 향상하고 조작할 수 있으므로 창의적인 표현과 의사소통의 새로운 가능성이 열립니다.

애플 MGIE를 사용하는 방법

MGIE를 사용하려면 사용자는 소스 코드, 교육 데이터 및 사전 교육된 모델에 대한 전체 액세스를 제공하는 GitHub의 오픈 소스 프로젝트에 액세스할 수 있습니다. 이를 통해 개발자와 연구원은 내부 작동 방식을 이해하고 잠재적으로 개선에 기여할 수 있습니다. 또한 GitHub에서 자연어 지침을 사용하여 다양한 편집 작업을 안내하는 데모 노트북을 사용할 수 있습니다. 이는 MGIE의 기능을 실제로 소개하는 역할을 합니다.

MGIE를 빠르고 편리하게 시험해 보기 위해 사용자는 Hugging Face Spaces에서 호스팅되는 웹 데모를 통해 시스템을 실험해 볼 수도 있습니다. 이 온라인 플랫폼을 통해 사용자는 로컬 설정 없이 시스템을 경험할 수 있습니다.

  녹아웃 배쉬 로켓 리그에서 잡는 방법?
애플 엠지
MGIE는 사용자 피드백을 환영하며 편집 내용을 다듬거나 다른 수정을 요청할 수 있습니다. (이미지 제공)

MGIE는 사용자 피드백을 환영하며 편집 내용을 수정하거나 다른 수정을 요청할 수 있습니다. 이러한 반복적인 접근 방식은 생성된 편집 내용이 사용자의 예술적 비전과 일치하도록 보장합니다.

MGIE는 아직 개발 중이지만 프로젝트를 오픈 소스화하면 광범위한 사용자와 기여자가 액세스할 수 있습니다. 지속적인 연구와 사용자 기여를 통해 미래의 기능과 잠재적인 응용 프로그램이 형성되어 이미지 편집 분야에서 흥미롭고 빠르게 발전하는 기술이 될 것입니다.


주요 이미지 크레딧: pvproductions/Freepik.

Source: Apple MGIE는 기술 대기업의 AI 부문 진출을 의미합니다.