거대 기술 기업인 Apple은 인공 지능에 대한 침묵을 깨고 MM1이라는 차세대 다중 모드 LLM(대형 언어 모델)을 출시했습니다.

이미지 캡션 작성, 시각적 질문 답변, 자연어 추론 등 복잡한 작업을 성공적으로 수행하는 MM1은 인공지능 세계에서 중요한 발전으로 평가받고 있습니다.

MM1이란 무엇입니까?

위에서 언급했듯이 MM1은 이미지 캡션, 시각적 질문에 대한 답변, 자연어 추론을 수행하도록 설계된 다중 모드 빅 언어 모델입니다. 텍스트와 시각적 데이터를 결합하여 복잡한 작업을 수행하는 것을 목표로 합니다. Apple 연구원들은 MM1이 다른 예비 훈련 결과에 비해 훨씬 향상된 결과를 제공한다고 보고합니다.

MM1이란 무엇입니까?
MM1은 다중 모드 언어 모델입니다. 즉, 텍스트와 이미지를 모두 이해하고 처리할 수 있습니다(이미지 제공).

MM1의 기술 사양

최대 300억 개의 매개변수를 지원하는 MM1은 이미지와 텍스트 데이터를 함께 처리할 수 있는 모델군으로 돋보입니다. 이미지 하위 헤더, 산재된 이미지 텍스트, 텍스트 전용 등 다양한 데이터 유형으로 훈련된 MM1은 보다 포괄적인 정보 처리 기능을 갖추고 있습니다.

  Kaist는 AI Chips의 자체 학습 밈을 개발합니다

한편, MM1의 개발은 Apple이 인공 지능에 부여하는 중요성을 나타냅니다. Apple, 코드명 ”이라는 LLM 프레임워크 개발 중아약스” 등 DarwinAI 등의 이니셔티브를 포함해 인공지능과 머신러닝을 핵심 기술로 보고 있다. 회사는 2024년에 이 분야의 세부 업무를 공유하고, 6월 WWDC 개발자 컨퍼런스에서 AI 중심 프레젠테이션을 할 계획이다.

MM1이란 무엇입니까?
MM1은 인공 지능 개발의 획기적인 발전을 나타냅니다(이미지 출처)

Apple의 MM1은 다중 모드 LLM 분야에서 중요한 진전으로 간주됩니다. 이는 가까운 미래에 중요한 역할을 할 수 있는 AI에 대해 Apple이 침묵을 깨고 있음을 보여줍니다. MM1의 개발은 시각적 데이터 처리, 자연어 이해 등의 분야에서 인공지능의 발전에 기여할 것입니다.


주요 이미지 출처: Sumudu Mohottige / Unsplash

Source: Apple, 멀티모달 LLM 공개: MM1