OpenAI는 시각적 기능을 고급 음성 모드에 통합하여 ChatGPT용 실시간 비디오 기능을 출시했습니다. 이 발표는 2024년 12월 12일에 열린 라이브 스트리밍 이벤트에서 이루어졌습니다. 업데이트된 버전은 사용자 기기 카메라를 통해 실시간으로 사물을 인식하고, 화면 공유를 통해 시각적 정보를 처리하고, 사람과 같은 대화에 참여할 수 있습니다. ChatGPT Plus, Team 및 Pro 구독자에게 제공되는 업데이트는 다음 주에 출시될 예정이며 EU의 일부 사용자는 지연될 수 있습니다.
이 향상된 기능을 통해 ChatGPT는 장치의 설정에 대한 설명을 제공하거나 수학 문제 해결을 위한 제안을 제공하는 등 표시되는 내용을 해석하여 사용자에게 응답할 수 있습니다. 이러한 기능을 활용하려면 사용자는 ChatGPT 앱에서 음성 아이콘을 탭하고 비디오 또는 화면 공유를 활성화하면 됩니다. 출시는 Plus 가입자에게 우선적으로 적용되며 ChatGPT Enterprise 및 Edu 사용자는 2025년 1월에 액세스할 수 있습니다.
OpenAI는 라이브 데모에서 고급 기능을 선보입니다.
최근 라이브 시연에서 OpenAI 사장 Greg Brockman은 고급 음성 모드의 매력적인 기능과 비전을 강조했습니다. Brockman은 CNN의 Anderson Cooper에게 해부학에 대한 질문을 던지면서 ChatGPT가 Cooper가 칠판에 그린 그림을 어떻게 이해하고 논평할 수 있는지 보여주었습니다. 상호 작용은 실시간 대화형 학습 및 피드백의 가능성을 보여 주었지만 ChatGPT는 형상 문제를 잘못 계산하는 등 일부 오류를 보여 모델 정확도와 관련된 지속적인 문제를 강조했습니다.
이 업데이트된 기능은 개발 지연에 직면했으며 OpenAI는 이전에 궁극적으로 확장된 출시 기간을 암시했습니다. 원래 2024년 5월에 시연된 고급 음성 모드는 더 빨리 출시될 것으로 예상되었습니다. 최근 발표는 이 기능을 개선하고 완성하려는 노력의 정점을 보여주며, 챗봇의 사용자 경험과 기술적 역량을 향상시키는 데 전략적 초점을 맞추고 있음을 나타냅니다.
OpenAI는 새로운 시각적 기능 외에도 휴가철을 맞아 ‘산타 모드’를 공개해 사용자가 축제 분위기 속에서 ChatGPT와 상호 작용할 수 있도록 했습니다. 이 기능에 액세스하려면 사용자는 애플리케이션에서 눈송이 아이콘을 클릭하면 됩니다. 이 시즌 옵션은 초기 상호 작용에 대한 사용 제한을 재설정하여 사용자가 축제 기능에 참여할 수 있는 더 많은 기회를 제공합니다.
Google 및 Meta와 같은 경쟁업체는 최근 Android에서 선택된 테스터에게 제공되는 Google의 Project Astra와 같은 유사한 기능을 개발하고 있습니다. 이러한 노력은 주요 기술 회사들이 대화형 비디오 기능을 AI 모델에 통합하여 사용자 참여와 애플리케이션 다양성을 향상시키기 위해 노력하고 있는 광범위한 추세를 반영합니다.
OpenAI는 또한 특수 작업에서 모델 성능을 최적화하도록 설계된 강화 미세 조정 연구 프로그램 강화와 같은 다른 개선 사항을 출시할 계획도 밝혔습니다. 이 프로그램은 연구 기관 및 기업을 대상으로 하며, 복잡한 애플리케이션에 맞게 OpenAI 모델을 사용자 정의할 수 있습니다.
주요 이미지 출처: OpenAI
OpenAI가 ChatGPT를 위한 실시간 비디오 기능을 출시한 게시물이 TechBriefly에 처음 등장했습니다.





