Microsoft는 자체 개발한 최초의 이미지 생성 모델인 MAI-Image-1을 발표했습니다. 회사는 이 모델이 “곧” Copilot 및 Bing Image Creator에서 제공될 예정이며 현재 사용자가 두 개의 익명 챗봇을 평가하고 최상의 응답에 투표하는 플랫폼인 LMArena에서 테스트할 수 있다고 밝혔습니다. LMArena의 텍스트-이미지 리더보드에서 MAI-Image-1은 1,096점을 획득하여 9위를 차지했습니다. 비교를 위해 Nano-Banana라고도 알려진 Google의 Gemini-2.5-Flash는 1,154점을 획득하여 2위를 차지했으며, OpenAI의 모델은 1,123점을 획득하여 7위를 기록했습니다. 리더보드는 중국 기술 회사인 Hunyuan이 개발한 모델인 Hunyuan-image-3.0이 주도합니다. Microsoft는 개발 팀이 MAI-Image-1을 사용하여 반복적이거나 일반적으로 양식화된 출력을 피하는 데 중점을 두었다고 밝혔습니다. “예를 들어, 우리는 실제 창의적인 사용 사례를 밀접하게 반영하는 작업에 초점을 맞춘 엄격한 데이터 선택과 미묘한 평가를 우선시했습니다.”라고 회사는 설명했으며 창조 산업 전문가의 피드백을 반영했다고 덧붙였습니다. 이 모델은 풍경과 사실적인 이미지를 생성하는 데 탁월한 것으로 보고되었습니다. 특히 “더 크고 느린 여러 모델”에 비해 조명, 그림자, 반사와 같은 세부 사항을 정확하게 캡처하는 성능이 주목됩니다. MAI-Image-1 외에도 Microsoft는 자연스러운 음성 생성을 위한 MAI-Voice-1과 효율적인 추론 작업을 위해 설계된 Phi 시리즈 소형 언어 모델을 비롯한 다른 내부 모델을 개발했습니다. 이러한 내부 개발은 OpenAI에 대한 회사의 지속적인 재정 및 인프라 지원과 함께 이루어집니다. AI 이미지 생성 분야는 현재 활발한 활동을 보이고 있습니다. OpenAI의 모델은 최근 스튜디오 지브리의 아트 스타일을 모방하는 능력으로 입소문을 탔고, 구글의 ‘나노바나나’는 고급 편집 능력을 인정받았다. AIM은 LMArena를 사용하여 Microsoft의 MAI-Image-1, Google의 Gemini-2.5-Flash 및 OpenAI의 GPT-image-1을 비교했습니다. 모델은 늦은 오후 창가에 있는 카페에 있는 두 사람을 묘사하는 프롬프트로 테스트되었습니다. 평가에서는 각 모델이 혼합된 조명, 반사 및 그림자의 사실성을 어떻게 처리하는지에 중점을 두었습니다. 사용자는 LMArena를 방문하여 유사한 프롬프트로 이러한 모델을 테스트할 수 있습니다.

  Amazon, 멀티플레이어 게임을 작업하는 새로운 스튜디오

Source: Microsoft, Copilot용 MAI-Image-1 공개