인공 지능(AI)은 처음으로 일상 대화를 인식하는 데 인간보다 더 높은 정확도를 달성할 수 있었습니다. 미래에는 이 기술이 자동 번역의 기반이 될 수 있습니다.
Alexa, Cortana 또는 Siri와 같은 디지털 비서는 음성 텍스트 및 번역의 자동 전사를 가능하게 합니다. 이를 위해 음성 인식 시스템은 라이브러리를 사용하여 개별 음절과 단어에 음향 신호를 할당하는 인공 신경망을 사용합니다. 이제 어시스턴트가 직접 말하거나 텍스트를 큰 소리로 읽을 때 결과가 매우 좋습니다. 그러나 일상 생활에서 Ruhr-Universität-Bochum(RUB)에서 최근에 수행한 연구에 따르면 음성 보조 장치가 잘못 이해된 신호 단어로 인해 의도치 않게 활성화될 수 있는 문제가 여전히 자주 발생합니다.
여러 사람 사이의 대화도 현재 자주 문제를 일으키고 있습니다. KIT(Karlsruhe Institute of Technology)의 Alex Waibel에 따르면 “중단, 말더듬, ‘아’ 또는 ‘흠’과 같은 꽉 찬 소리, 사람들이 서로 말할 때 웃음이나 기침이 있습니다. 또한 Waibel이 설명하는 것처럼 “단어가 불분명하게 발음되는 경우가 많습니다. 결과적으로 인간조차도 그러한 비공식 대화의 정확한 전사를 만드는 데 문제가 있습니다. 하지만 인공지능(AI)은 더 큰 어려움을 안고 있습니다.
AI에게 문제가 되는 일상 대화
arXiv가 발행한 사전 인쇄에 따르면 Waibel 주변의 과학자들은 이제 일상 대화를 인간보다 빠르고 더 잘 전사하는 AI를 개발하는 데 성공했습니다. 새로운 시스템은 대학 강의를 독일어와 영어로 실시간으로 번역하는 기술을 기반으로 합니다. 소위 인코더-디코더 네트워크는 음향 신호를 분석하고 단어를 할당하는 데 사용됩니다. Waibel에 따르면, “오류와 지연으로 인해 번역을 이해하기 어렵게 만들기 때문에 자발적인 말의 인식은 이 시스템에서 가장 중요한 구성 요소입니다.
정확도 향상 및 지연 시간 감소
이제 KIT 과학자들은 시스템을 크게 향상시켰고 특히 대기 시간을 크게 줄였습니다. Waibel과 그의 팀은 특정 단어 조합의 확률에 기반한 접근 방식을 사용하고 이를 두 개의 다른 인식 모듈과 연결했습니다.
표준화된 테스트에서 새로운 음성 인식 시스템은 약 2,000시간의 전화 대화 모음에서 발췌한 내용을 듣고 시스템이 자동으로 이를 전사하게 되었습니다. Waibel에 따르면, “여기의 인적 오류율은 약 5.5%입니다. 반면 AI는 5.0%의 오류율에 불과해 일상 대화를 처음으로 인간을 넘어섰다. 지연시간, 즉 신호가 도착하고 결과가 나오기까지의 지연시간 역시 평균 1.63초로 매우 빠르지만 아직 인간의 평균 지연시간인 1초에 근접하지는 않는다.
미래에 새로운 시스템은 예를 들어 자동 번역 또는 컴퓨터가 자연어를 처리하는 다른 시나리오의 기초로 사용될 수 있습니다.