[기고] 음성 기술, 스마트 기기 그 이상을 가능하게 하다-아이씨엔매거진

글: 스티븐 에반추크(Stephen Evanczuk)
제공: 마우저 일렉트로닉스(Mouser Electronics)

음성 합성 기술이 발전함에 따라서 아마존 알렉사(Amazon Alexa)나 애플 시리(Apple Siri) 같은 스마트 비서의 도입이 가속화되고 있다. 그런데 정교한 음성 기술은 그보다 더 절실한 서비스를 제공할 수 있는 쪽으로 한 걸음 한 걸음 나아가고 있다. 인공지능(AI)을 기반으로 한 음성 기술이 목소리를 잃었거나 목소리가 손상된 수백만 명의 사람들에게 목소리를 찾아주는 궁극의 목표를 향해서 진화하고 있다.

첨단 음성 기술은 거대한 규모로 치열한 경쟁의 장이 되고 있는 스마트 제품 시장의 근간을 이룬다. NPR과 Edison Research의 2022년도 스마트 오디오 보고서⁽¹⁾에 따르면, 18세 이상 미국인의 62퍼센트가 특정 타입의 디바이스로 음성 비서를 사용하는 것으로 조사되었다. 기업들에게 정교한 음성 기술의 사용은 자사의 합성 음성 브랜드를 확고히 하기 위해서 중요할 뿐만 아니라, 사용자의 디바이스로 자연스럽게 대화할 수 있는 AI 기반 에이전트를 통해서 소비자와 직접 상호작용함으로써 전례 없는 막대한 기회를 포착할 수 있다는 점에서도 중요하다.

복잡한 음성 합성 파이프라인

음성 합성 기술이 음성 인코더(보코더)와는 차원이 다르게 진보했다. 보코더는 거의 한 세기 전에 처음으로 개발된 시스템으로서, 전화선 전송 시에 대역폭을 낮추기 위한 것이었다. 오늘날의 보코더는 컨볼루션 신경망(CNN) 같은 딥 러닝 알고리즘에 기반한 정교한 서브시스템이다. 사실상 이러한 뉴럴 보코더는 복잡한 음성 합성 파이프라인의 후위 단계일 뿐이다. 이 파이프라인으로는, 듣는 사람이 말하는 사람의 성별, 나이, 여타 요소들을 식별할 수 있도록 하는 목소리의 다양한 측면을 생성할 수 있는 음향 모델을 포함한다. 이 음향 모델은 통상적으로 멜 스펙트로그램(mel-spectrogram)으로 음향적 특색을 생성한다. 멜 스펙트로그램이 선형적 주파수 도메인을 인간의 지각을 좀더 잘 표현할 수 있는 도메인으로 맵핑한다. 구글 딥마인드(Google DeepMind)의 웨이브넷(WaveNet) 같은 뉴럴 보코더로 이러한 음향적 특색을 사용해서 고품질의 오디오 출력 파형을 생성할 수 있다.

다운로드할 수 있는 모바일 앱에서부터 OpenTTS 같은 오픈 소스 패키지와 Amazon Polly, Google Text-to-Speech, Microsoft Azure Text to Speech 같은 포괄적인 클라우드 기반 다언어 서비스에 이르기까지, 텍스트-대-음성(TTS) 상품이 쏟아져 나오고 있다. 많은 TTS 패키지와 서비스가 산업 표준 SSML(Speech Synthesis Markup Language)를 지원하므로, 음성 합성 애플리케이션으로 일관된 접근법으로 휴지(pause), 끊어읽기(phrasing), 강세(emphasis), 억양(intonation) 같은 좀더 실제적인 음성 패턴이 가능하게 되었다.

특정 개인에게 목소리를 찾아주다

오늘날의 TTS 소프트웨어는, 로봇처럼 들리는 인공후두 음성과 비교해서나 음성 표현 기술이 좀더 발전하면서 작고한 스티븐 호킹이 자신의 상징적인 목소리로 사용했던 것과 비교해서도 훨씬 더 진보한 음성 품질을 제공할 수 있게 되었다.⁽²⁾ 그렇기는 하더라도 이러한 패키지와 서비스들은 애플리케이션, 웹사이트, 비디오, 자동 음성 응답 시스템 등으로 사실적인 음성 인터페이스를 제공하는 것에 초점이 맞춰져 있다. 고유의 음색과 음성 패턴으로 특정 개인의 목소리를 재현하는 것은 이러한 서비스들의 일차적인 목적이 아니다.

구글의 것과 같은 일부 서비스들이 별도의 기능으로서 사용자 제공 음성을 생성할 수 있는 기능을 제공하고 있기는 한데, 목소리를 잃은 특정 개인의 목소리를 재현하고자 하는 용도로 전적으로 설계된 것은 아니다. 이러한 개인들에게 이것은 매우 절실한 요구이다. 우리의 목소리는 각자의 정체성과 매우 긴밀히 연관되어 있기 때문이다. 짧게 인사할 때의 목소리가 개별 단어들보다 훨씬 더 많은 것을 말해준다. 목소리를 잃은 사람들은 단지 목소리를 잃었다는 사실 이상으로 단절감을 느낀다. 이러한 개인들이 자신의 목소리로 다른 사람들과 소통할 수 있게 하는 것은 첨단 음성 기술에 기대할 수 있는 가장 위대한 약속일 것이다.

음성 복제 기술의 부상

관련 연구가 계속됨으로써 개인의 고유한 정체성을 알 수 있도록 하는 합성 음성을 제공함에 있어서 장벽이 낮아지고 있다. 작년에 배우 발 킬머가 인후암 수술로 목소리를 잃고서 영국 회사인 Sonantic이 누가 들어도 발 킬머라고 인지할 수 있는 합성 음성을 만들어주었다. 또 다른 유명한 음성 합성 사례로서, 작고한 유명 요리사 안소니 부르댕의 생애에 관한 영화에서 이 사람의 목소리를 복제해서 이 요리사가 생전에 글로만 쓰고 말로는 하지 않았던 문장들을 그 자신의 목소리로 말하게 했다.

이 분야의 또 다른 선도 회사인 VocalID는, 개인이 자신의 목소리를 잃을 것에 대비해서 이 회사의 목소리 은행에다 저장한 녹음을 사용하거나 또는 자원봉사자들이 녹음한 것을 사용해서 목소리를 잃은 사람과 매칭시켜서 맞춤화된 음성을 제공한다. 그런 다음에는 이 개인이 iOS, 안드로이드, 윈도우 모바일 디바이스로 자신의 목소리로 음성 합성 애플리케이션을 실행하고 대화를 할 수 있다.

이러한 음성 복제 기술이 빠르게 발전하고 있다. 올 여름에 아마존은 60초짜리 오디오 클립을 통해서 음성 복제 능력이 어디까지 발전했는지 보여주었다. 세상을 떠난 사랑하는 사람들의 목소리를 되살려내고자 하는 것이라고 설명하기는 했으나, 아마존의 이 데모는 AI가 친숙한 목소리로 음성 출력을 제공할 수 있음을 보여주었다.

목소리와 정체성은 긴밀하게 연관되어 있기 때문에 고충실도 음성 생성은 기대감을 갖게 하는 것이자 동시에 위협이 될 수 있다. 딥페이크 비디오와 마찬가지로 딥페이크 음성 복제 또한 심각한 보안 위협이 될 수 있다. 2020년에 이미 고품질 음성 복제를 사용해서 3500만 달러를 부정 송금하게 한 사건이 발생한 것으로 알려져 있다. 이 사건의 경우에는 은행 관리자가 자신이 아는 목소리로 전화 송금 요청을 받고서 돈을 송금했는데 알고 보니 딥페이크 음성인 것으로 드러났다.

맺음말

이 기술의 시장 잠재력을 알아보고서 학계와 기업들의 연구자들이, 소비자들에게 좀더 편안하게 다가갈 수 있게 사람 목소리의 모든 미묘한 뉘앙스가 가능한 음성 출력을 생성하기 위해서 연구에 매진하고 있다. 하지만 이러한 시장 기회와는 별개로, 진보된 음성 합성 기술은 목소리가 없이 태어나거나 사고나 질병으로 목소리를 잃은 사람들에게 좀더 개인적인 혜택을 가져다줄 수 있을 것이다.

참조 출처
(1). “The Smart Audio Report.” national public media, June 2022. https://www.nationalpublicmedia.com/insights/reports/smart-audio-report/.
(2). Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, July 15, 2021. https://beyondwords.io/blog/stephen-hawkings-voice/.

[저자 소개]

스티븐 에반추크(Stephen Evanczuk)는 20년 넘게 전자 업계를 위해서 하드웨어, 소프트웨어, 시스템, 애플리케이션을 비롯한 다양한 주제에 관해서 기사를 써오고 있습니다. 신경망을 전공으로 신경과학 박사학위를 취득했으며, 항공우주 업계에서 거대 분산 보안 시스템과 알고리즘 가속화 기법과 관련한 업무를 했습니다. 기술과 엔지니어링에 관한 기사를 쓰지 않을 때는 인지 및 추천 시스템으로 딥 러닝을 적용하는 것을 연구하고 있습니다.