Google의 Gemini AI Assistant는 이제 오디오 파일 업로드를 지원하여 사용자가 녹음에서 주요 정보를 전사, 요약 및 추출 할 수 있도록합니다. 이 새로운 기능은 최대 10 분의 음성 메모, 회의, 강의 및 인터뷰를 검색 가능한 문서로 변환합니다. 오디오 업로드 기능은 웹과 모바일 앱을 통해 사용할 수 있으며 표준 파일 upload 인터페이스를 통해 액세스 할 수 있습니다. Gemini의 Gemini 부사장 인 Josh Woodward에 따르면 오디오 파일 업로드 기능은 사용자가 가장 많이 요청했습니다. 이 기능은 실시간 음성 명령에 중점을 둔 Gemini Live와 다릅니다. 새로운 기능은 업로드 된 오디오 파일에서 데이터를 처리하도록 설계되었습니다. 테스트 중에 Gemini는 이름 인식과 관련된 사소한 오류만으로 코미디 앨범 및 전화 대화에서 스케치를 정확하게 전사했습니다. AI는 또한 할 일 목록을 작성하는 데 적합한 주요 요소와 항목을 효과적으로 식별했습니다. 오디오 처리의 추가는 앱 통합, 카드 기반 비주얼 인터페이스 및 확장 된 개인화 옵션을 포함한 최근 Gemini 개선과 일치합니다. 이 기능을 사용하면 저장된 오디오 로그 및 메모를 검색 가능한 컨텐츠로 변환하여 이전에 외부 전사 소프트웨어가 필요한 프로세스를 간소화 할 수 있습니다. Chatgpt (Whisper 사용), Anthropic ‘s Claude 및 Perplexity와 같은 다른 AI 조수도 오디오 처리 기능을 제공하지만 Gemini의 구현은 일상적인 사용 사례에 맞춰야합니다. 사용자는 Gemini를 활용하여 언어를 단순화하고, 스피커 별 의견을 분리하며, 질문을 생성하며, 오디오 콘텐츠에서 학습 가이드를 만들 수 있습니다. 그러나 자유 계층 사용자를위한 10 분 오디오 제한 및 일일 사용 캡은 사용 빈도를 제한 할 수 있습니다. Google은 현재 일반적인 Gemini 할당량에 해당하기 때문에 대량 오디오 처리를위한 공식 가격을 아직 출시하지 않았습니다. 광범위한 오디오 컨텐츠를 처리하려는 사용자는 그에 따라 사용량을 관리해야합니다. 본질적으로 Gemini의 새로운 오디오 기능은 오디오 파일에서 귀중한 정보를 처리하고 추출하는 간소화 된 방법을 제공하므로 다양한 개인 및 전문 응용 프로그램에 유용한 도구가됩니다.

Google Gemini는 이제 오디오 파일 업로드를 지원합니다
Written by
Starting with coding on Commodore 64 in elementary school moving to web programming in his teenage years, Aytun has been around technology for over 30 years, and he has been a tech journalist for over 20 years now. He worked in many major Turkish outlets (newspapers, magazines, TV channels and websites) and managed some. Besides journalism, he worked as a copywriter and PR manager (for Lenovo, HP and many international brands ) in agencies. He founded his agency, Linkmedya in 2019 to execute his way of producing content. He is recently interested in AI, automation and MarTech.
View all posts →Related Stories
NVIDIA, Computex에서 Isaac Gr00t 개방형 휴머노이드 로봇 플랫폼 공개
최고 경영자인 Jensen Huang은 이 플랫폼이 Jetson AGX Thor T5000 온보드 컴퓨터를 기반으로 31 자유도를 갖춘 6피트 높이의...
WWDC 2026에서 기대할 수 있는 것
Apple은 WWDC 2026에서 iOS, macOS 등에 대한 주요 업데이트와 함께 고급 AI를 기반으로 한 대규모 Siri 개편을 공개할...
새로운 스마트 안경과 함께 Meta Eyes AI 펜던트 출시
Meta는 올해 웨어러블 기술 야망을 확장하기 위해 AI 펜던트와 최대 4개의 새로운 스마트 안경 모델을 개발하고 있는 것으로...
Radeon RX 9070 GRE, 중국 데뷔 후 549달러로 전 세계 출시
AMD의 Radeon RX 9070 GRE 그래픽 카드는 1440p 게임 성능, RDNA 4 효율성 및 FSR 4.1 지원을 제공하는...




