Microsoft는 자체 개발한 최초의 이미지 생성 모델인 MAI-Image-1을 발표했습니다. 회사는 이 모델이 “곧” Copilot 및 Bing Image Creator에서 제공될 예정이며 현재 사용자가 두 개의 익명 챗봇을 평가하고 최상의 응답에 투표하는 플랫폼인 LMArena에서 테스트할 수 있다고 밝혔습니다. LMArena의 텍스트-이미지 리더보드에서 MAI-Image-1은 1,096점을 획득하여 9위를 차지했습니다. 비교를 위해 Nano-Banana라고도 알려진 Google의 Gemini-2.5-Flash는 1,154점을 획득하여 2위를 차지했으며, OpenAI의 모델은 1,123점을 획득하여 7위를 기록했습니다. 리더보드는 중국 기술 회사인 Hunyuan이 개발한 모델인 Hunyuan-image-3.0이 주도합니다. Microsoft는 개발 팀이 MAI-Image-1을 사용하여 반복적이거나 일반적으로 양식화된 출력을 피하는 데 중점을 두었다고 밝혔습니다. “예를 들어, 우리는 실제 창의적인 사용 사례를 밀접하게 반영하는 작업에 초점을 맞춘 엄격한 데이터 선택과 미묘한 평가를 우선시했습니다.”라고 회사는 설명했으며 창조 산업 전문가의 피드백을 반영했다고 덧붙였습니다. 이 모델은 풍경과 사실적인 이미지를 생성하는 데 탁월한 것으로 보고되었습니다. 특히 “더 크고 느린 여러 모델”에 비해 조명, 그림자, 반사와 같은 세부 사항을 정확하게 캡처하는 성능이 주목됩니다. MAI-Image-1 외에도 Microsoft는 자연스러운 음성 생성을 위한 MAI-Voice-1과 효율적인 추론 작업을 위해 설계된 Phi 시리즈 소형 언어 모델을 비롯한 다른 내부 모델을 개발했습니다. 이러한 내부 개발은 OpenAI에 대한 회사의 지속적인 재정 및 인프라 지원과 함께 이루어집니다. AI 이미지 생성 분야는 현재 활발한 활동을 보이고 있습니다. OpenAI의 모델은 최근 스튜디오 지브리의 아트 스타일을 모방하는 능력으로 입소문을 탔고, 구글의 ‘나노바나나’는 고급 편집 능력을 인정받았다. AIM은 LMArena를 사용하여 Microsoft의 MAI-Image-1, Google의 Gemini-2.5-Flash 및 OpenAI의 GPT-image-1을 비교했습니다. 모델은 늦은 오후 창가에 있는 카페에 있는 두 사람을 묘사하는 프롬프트로 테스트되었습니다. 평가에서는 각 모델이 혼합된 조명, 반사 및 그림자의 사실성을 어떻게 처리하는지에 중점을 두었습니다. 사용자는 LMArena를 방문하여 유사한 프롬프트로 이러한 모델을 테스트할 수 있습니다.

Microsoft, Copilot용 MAI-Image-1 공개
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft, 고급 AI 워크로드를 위한 Surface RTX Spark Dev Box 공개
Microsoft의 Surface RTX Spark Dev Box는 NVIDIA의 RTX Spark 칩과 최대 128GB 메모리를 결합하여 고급 AI 워크로드 및...
X, iOS 사용자를 위한 ‘비디오로 반응’ 기능 출시
X는 iOS용 "비디오로 반응" 기능을 출시하여 사용자가 원본 게시물과 함께 TikTok 스타일의 반응 비디오를 직접 게시할 수 있도록...
Microsoft, 차세대 에이전트 우선 장치를 지원하는 Project Solara 공개
Project Solara는 소프트웨어와 하드웨어를 혼합하여 전문화되고 개인화된 적응형 AI 경험을 만드는 에이전트 우선 컴퓨팅을 도입합니다.
Google, 새로운 안전 및 공유 기능을 갖춘 6월 Android 업데이트 출시
6월 Android Drop에서는 사용자가 보안과 창의성을 유지할 수 있도록 새로운 개인화 도구, 세련된 업데이트, 향상된 안전 기능을 선보입니다.




