OpenAI는 개발자가 실시간으로 대화하고, 기록하고, 번역할 수 있는 대화형 애플리케이션을 만드는 데 도움을 주기 위해 설계된 API의 새로운 음성 인텔리전스 기능을 발표했습니다. GPT-5 클래스 추론을 기반으로 구축된 새로 출시된 GPT-Realtime-2 모델은 이전 모델인 GPT-Realtime-1.5에 비해 더 복잡한 사용자 요청을 처리하는 것을 목표로 합니다.
또한 OpenAI는 70개 이상의 입력 언어와 13개 이상의 출력 언어에 대한 실시간 번역 서비스를 제공하는 GPT‑Realtime‑Translate를 도입했습니다. 이 기능은 대화 중에 사용자와 보조를 맞추도록 설계되었습니다.
또 다른 주요 업데이트는 실시간 상호 작용을 위해 실시간 음성-텍스트 변환을 제공하는 GPT-Realtime-Whisper 기능입니다. OpenAI는 “우리가 출시하는 모델은 간단한 통화 및 응답에서 실시간 오디오를 실제로 작업할 수 있는 음성 인터페이스로 전환합니다. 대화가 진행됨에 따라 듣고, 추론하고, 번역하고, 기록하고, 조치를 취합니다.”라고 밝혔습니다.
OpenAI에 따르면 이번 업데이트는 고객 서비스, 교육, 미디어, 이벤트 등 여러 산업을 대상으로 합니다. 회사는 새로운 기능이 스팸이나 사기 등 오용의 위험을 초래할 수도 있다고 지적했습니다. 이를 완화하기 위해 OpenAI는 유해한 콘텐츠 지침을 위반하는 대화를 중단하도록 설계된 가드레일을 구현했습니다.
모든 새로운 음성 모델은 OpenAI Realtime API의 일부입니다. 청구 구조는 GPT-Realtime-Translate 및 GPT-Realtime-Whisper가 분 단위로 청구되는 반면, GPT-Realtime-2는 토큰 소비를 기준으로 청구되는 등 다양합니다.
<시간 />








