OpenAI, 고급 실시간 음성 AI 모델 출시

OpenAI는 개발자가 실시간으로 대화하고, 기록하고, 번역할 수 있는 대화형 애플리케이션을 만드는 데 도움을 주기 위해 설계된 API의 새로운 음성 인텔리전스 기능을 발표했습니다. GPT-5 클래스 추론을 기반으로 구축된 새로 출시된 GPT-Realtime-2 모델은 이전 모델인 GPT-Realtime-1.5에 비해 더 복잡한 사용자 요청을 처리하는 것을 목표로 합니다.

또한 OpenAI는 70개 이상의 입력 언어와 13개 이상의 출력 언어에 대한 실시간 번역 서비스를 제공하는 GPT‑Realtime‑Translate를 도입했습니다. 이 기능은 대화 중에 사용자와 보조를 맞추도록 설계되었습니다.

또 다른 주요 업데이트는 실시간 상호 작용을 위해 실시간 음성-텍스트 변환을 제공하는 GPT-Realtime-Whisper 기능입니다. OpenAI는 “우리가 출시하는 모델은 간단한 통화 및 응답에서 실시간 오디오를 실제로 작업할 수 있는 음성 인터페이스로 전환합니다. 대화가 진행됨에 따라 듣고, 추론하고, 번역하고, 기록하고, 조치를 취합니다.”라고 밝혔습니다.

OpenAI에 따르면 이번 업데이트는 고객 서비스, 교육, 미디어, 이벤트 등 여러 산업을 대상으로 합니다. 회사는 새로운 기능이 스팸이나 사기 등 오용의 위험을 초래할 수도 있다고 지적했습니다. 이를 완화하기 위해 OpenAI는 유해한 콘텐츠 지침을 위반하는 대화를 중단하도록 설계된 가드레일을 구현했습니다.

헐리우드 압력으로 인해 ByteDance의 Seedance 2.0 글로벌 출시가 지연되었습니다.

모든 새로운 음성 모델은 OpenAI Realtime API의 일부입니다. 청구 구조는 GPT-Realtime-Translate 및 GPT-Realtime-Whisper가 분 단위로 청구되는 반면, GPT-Realtime-2는 토큰 소비를 기준으로 청구되는 등 다양합니다.

<시간 />

추천 이미지 크레딧

OpenAI, 고급 실시간 음성 AI 모델 출시

Related Stories

Google, AI 사용자가 몇 초 안에 클립을 변환할 수 있는 Video Remix 출시

Amazon은 AI 에이전트와 경쟁하기 위해 더욱 강력한 Alexa 보조자를 계획하고 있습니다.

ChatGPT Voice는 전이중 GPT-Live 모델을 얻습니다.

인류가 지원하는 연구에서 AI 모델에 대한 모듈식 액세스 제어 테스트