Google Deepmind의 CEO 인 Demis Hassabis는 최근 팟 캐스트 인터뷰에 공개 된 바와 같이 Gemini의 물리적 세계에 대한 Gemini의 이해력을 향상시키기 위해 Gemini AI 모델을 VEO 비디오 생성 AI 모델과 통합 할 계획을 공개했습니다.
Hassabis에 따르면, Gemini는 실제 시나리오에서 사용자를 도울 수있는 “Universal Digital Assistant”를 만들기 위해 처음부터 멀티 모달로 설계되었습니다. Hassabis는“우리는 항상 우리의 기초 모델 인 Gemini를 처음부터 멀티 모달로 만들었습니다. [is because] 우리는 보편적 인 디지털 어시스턴트 의이 아이디어에 대한 비전을 가지고 있습니다. […] 실제로 현실 세계에서 당신을 도와줍니다.”
AI 업계는 오디오, 이미지 및 텍스트와 같은 여러 형태의 미디어를 처리하고 생성 할 수있는 “Omni”모델로의 전환을 목격하고 있습니다. Google의 최신 Gemini 모델은 오디오, 이미지 및 텍스트를 생성 할 수 있으며 Openai의 Chatgpt는 Studio Ghibli 스타일 아트를 포함한 이미지를 만들 수 있습니다. 아마존은 또한 올해 말에“모든 대다”모델을 출시 할 계획을 발표하여 이러한 추세를 더욱 설명했습니다.
이러한 OMNI 모델에는 이미지, 비디오, 오디오 및 텍스트를 포함한 방대한 양의 교육 데이터가 필요합니다. Hassabis는 VEO의 비디오 데이터가 주로 Google이 소유 한 플랫폼 인 YouTube에서 공급 된 것으로 나타났습니다. “기본적으로 YouTube 동영상을보고 많은 YouTube 동영상을 보면서 [Veo 2] Hassabis는 Hassabis는 말했다. Google은 이전에 TechCrunch에게 YouTube 제작자와의 계약에 따라 “일부”YouTube 컨텐츠에 대한 교육이 “교육을”할 수 있다고 TechCrunch에 이전에 알렸다.
Google은 작년에 AI 모델을 교육하기 위해 YouTube 컨텐츠를 포함한 더 많은 데이터에 액세스하기 위해 작년에 서비스 약관을 확대했다는 점은 주목할 가치가 있습니다. 이러한 움직임은 광대 한 온라인 데이터 저장소를 활용하여 AI 기능을 강화하기위한 전략적 노력으로 여겨집니다.
Gemini와 Veo AI 모델을 결합하는 Google 게시물은 TechBriefly에서 처음으로 나타났습니다.
Source: Google은 Gemini와 Veo AI 모델을 결합합니다








