#하노버메세

[기고] 음성 기술, 스마트 기기 그 이상을 가능하게 하다

글: 스티븐 에반추크(Stephen Evanczuk)
제공: 마우저 일렉트로닉스(Mouser Electronics)

음성 합성 기술이 발전함에 따라서 아마존 알렉사(Amazon Alexa)나 애플 시리(Apple Siri) 같은 스마트 비서의 도입이 가속화되고 있다. 그런데 정교한 음성 기술은 그보다 더 절실한 서비스를 제공할 수 있는 쪽으로 한 걸음 한 걸음 나아가고 있다. 인공지능(AI)을 기반으로 한 음성 기술이 목소리를 잃었거나 목소리가 손상된 수백만 명의 사람들에게 목소리를 찾아주는 궁극의 목표를 향해서 진화하고 있다.

첨단 음성 기술은 거대한 규모로 치열한 경쟁의 장이 되고 있는 스마트 제품 시장의 근간을 이룬다. NPR과 Edison Research의 2022년도 스마트 오디오 보고서(1)에 따르면, 18세 이상 미국인의 62퍼센트가 특정 타입의 디바이스로 음성 비서를 사용하는 것으로 조사되었다. 기업들에게 정교한 음성 기술의 사용은 자사의 합성 음성 브랜드를 확고히 하기 위해서 중요할 뿐만 아니라, 사용자의 디바이스로 자연스럽게 대화할 수 있는 AI 기반 에이전트를 통해서 소비자와 직접 상호작용함으로써 전례 없는 막대한 기회를 포착할 수 있다는 점에서도 중요하다.

복잡한 음성 합성 파이프라인

음성 합성 기술이 음성 인코더(보코더)와는 차원이 다르게 진보했다. 보코더는 거의 한 세기 전에 처음으로 개발된 시스템으로서, 전화선 전송 시에 대역폭을 낮추기 위한 것이었다. 오늘날의 보코더는 컨볼루션 신경망(CNN) 같은 딥 러닝 알고리즘에 기반한 정교한 서브시스템이다. 사실상 이러한 뉴럴 보코더는 복잡한 음성 합성 파이프라인의 후위 단계일 뿐이다. 이 파이프라인으로는, 듣는 사람이 말하는 사람의 성별, 나이, 여타 요소들을 식별할 수 있도록 하는 목소리의 다양한 측면을 생성할 수 있는 음향 모델을 포함한다. 이 음향 모델은 통상적으로 멜 스펙트로그램(mel-spectrogram)으로 음향적 특색을 생성한다. 멜 스펙트로그램이 선형적 주파수 도메인을 인간의 지각을 좀더 잘 표현할 수 있는 도메인으로 맵핑한다. 구글 딥마인드(Google DeepMind)의 웨이브넷(WaveNet) 같은 뉴럴 보코더로 이러한 음향적 특색을 사용해서 고품질의 오디오 출력 파형을 생성할 수 있다.

다운로드할 수 있는 모바일 앱에서부터 OpenTTS 같은 오픈 소스 패키지와 Amazon Polly, Google Text-to-Speech, Microsoft Azure Text to Speech 같은 포괄적인 클라우드 기반 다언어 서비스에 이르기까지, 텍스트-대-음성(TTS) 상품이 쏟아져 나오고 있다. 많은 TTS 패키지와 서비스가 산업 표준 SSML(Speech Synthesis Markup Language)를 지원하므로, 음성 합성 애플리케이션으로 일관된 접근법으로 휴지(pause), 끊어읽기(phrasing), 강세(emphasis), 억양(intonation) 같은 좀더 실제적인 음성 패턴이 가능하게 되었다.

[기고] 음성 기술, 스마트 기기 그 이상을 가능하게 하다
(image. pixabay)

특정 개인에게 목소리를 찾아주다

오늘날의 TTS 소프트웨어는, 로봇처럼 들리는 인공후두 음성과 비교해서나 음성 표현 기술이 좀더 발전하면서 작고한 스티븐 호킹이 자신의 상징적인 목소리로 사용했던 것과 비교해서도 훨씬 더 진보한 음성 품질을 제공할 수 있게 되었다.(2) 그렇기는 하더라도 이러한 패키지와 서비스들은 애플리케이션, 웹사이트, 비디오, 자동 음성 응답 시스템 등으로 사실적인 음성 인터페이스를 제공하는 것에 초점이 맞춰져 있다. 고유의 음색과 음성 패턴으로 특정 개인의 목소리를 재현하는 것은 이러한 서비스들의 일차적인 목적이 아니다.

구글의 것과 같은 일부 서비스들이 별도의 기능으로서 사용자 제공 음성을 생성할 수 있는 기능을 제공하고 있기는 한데, 목소리를 잃은 특정 개인의 목소리를 재현하고자 하는 용도로 전적으로 설계된 것은 아니다. 이러한 개인들에게 이것은 매우 절실한 요구이다. 우리의 목소리는 각자의 정체성과 매우 긴밀히 연관되어 있기 때문이다. 짧게 인사할 때의 목소리가 개별 단어들보다 훨씬 더 많은 것을 말해준다. 목소리를 잃은 사람들은 단지 목소리를 잃었다는 사실 이상으로 단절감을 느낀다. 이러한 개인들이 자신의 목소리로 다른 사람들과 소통할 수 있게 하는 것은 첨단 음성 기술에 기대할 수 있는 가장 위대한 약속일 것이다.

음성 복제 기술의 부상

관련 연구가 계속됨으로써 개인의 고유한 정체성을 알 수 있도록 하는 합성 음성을 제공함에 있어서 장벽이 낮아지고 있다. 작년에 배우 발 킬머가 인후암 수술로 목소리를 잃고서 영국 회사인 Sonantic이 누가 들어도 발 킬머라고 인지할 수 있는 합성 음성을 만들어주었다. 또 다른 유명한 음성 합성 사례로서, 작고한 유명 요리사 안소니 부르댕의 생애에 관한 영화에서 이 사람의 목소리를 복제해서 이 요리사가 생전에 글로만 쓰고 말로는 하지 않았던 문장들을 그 자신의 목소리로 말하게 했다.

이 분야의 또 다른 선도 회사인 VocalID는, 개인이 자신의 목소리를 잃을 것에 대비해서 이 회사의 목소리 은행에다 저장한 녹음을 사용하거나 또는 자원봉사자들이 녹음한 것을 사용해서 목소리를 잃은 사람과 매칭시켜서 맞춤화된 음성을 제공한다. 그런 다음에는 이 개인이 iOS, 안드로이드, 윈도우 모바일 디바이스로 자신의 목소리로 음성 합성 애플리케이션을 실행하고 대화를 할 수 있다.

이러한 음성 복제 기술이 빠르게 발전하고 있다. 올 여름에 아마존은 60초짜리 오디오 클립을 통해서 음성 복제 능력이 어디까지 발전했는지 보여주었다. 세상을 떠난 사랑하는 사람들의 목소리를 되살려내고자 하는 것이라고 설명하기는 했으나, 아마존의 이 데모는 AI가 친숙한 목소리로 음성 출력을 제공할 수 있음을 보여주었다.

목소리와 정체성은 긴밀하게 연관되어 있기 때문에 고충실도 음성 생성은 기대감을 갖게 하는 것이자 동시에 위협이 될 수 있다. 딥페이크 비디오와 마찬가지로 딥페이크 음성 복제 또한 심각한 보안 위협이 될 수 있다. 2020년에 이미 고품질 음성 복제를 사용해서 3500만 달러를 부정 송금하게 한 사건이 발생한 것으로 알려져 있다. 이 사건의 경우에는 은행 관리자가 자신이 아는 목소리로 전화 송금 요청을 받고서 돈을 송금했는데 알고 보니 딥페이크 음성인 것으로 드러났다.

맺음말

이 기술의 시장 잠재력을 알아보고서 학계와 기업들의 연구자들이, 소비자들에게 좀더 편안하게 다가갈 수 있게 사람 목소리의 모든 미묘한 뉘앙스가 가능한 음성 출력을 생성하기 위해서 연구에 매진하고 있다. 하지만 이러한 시장 기회와는 별개로, 진보된 음성 합성 기술은 목소리가 없이 태어나거나 사고나 질병으로 목소리를 잃은 사람들에게 좀더 개인적인 혜택을 가져다줄 수 있을 것이다.

참조 출처
(1). “The Smart Audio Report.” national public media, June 2022. https://www.nationalpublicmedia.com/insights/reports/smart-audio-report/.
(2). Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, July 15, 2021. https://beyondwords.io/blog/stephen-hawkings-voice/.

[저자 소개]

스티븐 에반추크(Stephen Evanczuk)는 20년 넘게 전자 업계를 위해서 하드웨어, 소프트웨어, 시스템, 애플리케이션을 비롯한 다양한 주제에 관해서 기사를 써오고 있습니다. 신경망을 전공으로 신경과학 박사학위를 취득했으며, 항공우주 업계에서 거대 분산 보안 시스템과 알고리즘 가속화 기법과 관련한 업무를 했습니다. 기술과 엔지니어링에 관한 기사를 쓰지 않을 때는 인지 및 추천 시스템으로 딥 러닝을 적용하는 것을 연구하고 있습니다.

뉴스레터 구독하기

아이씨엔매거진은 AIoT, IIoT 및 피지컬 AI, 디지털트윈을 통한 제조업 디지털전환 애널리틱스를 제공합니다.
테크리포트: 자율제조, 전력전자, 모빌리티, 로보틱스, 스마트농업

AW2026 expo
ACHEMA 2027
전시회 세미나 선물 준비는 기프트랩스
아이씨엔
아이씨엔http://icnweb.co.kr
아이씨엔매거진 웹 관리자입니다.
fastech EtherCAT
as-interface
GiftLabs

Related Articles

Stay Connected

440FansLike
407FollowersFollow
224FollowersFollow
120FollowersFollow
372FollowersFollow
152SubscribersSubscribe
GiftLabs
spot_img
InterPACK
spot_img
SPS 2026
automotion
Power Electronics Mag

Latest Articles

Related Articles

PENGUIN Solutions
글로벌 표준 설계자 서울 집결… 피지컬 AI 로드맵 공개

글로벌 표준 설계자 서울 집결… 피지컬 AI 로드맵 공개

0
글로벌 표준 설계자들이 오는 5월 서울에 모여 피지컬 AI 시대를 위한 산업용 네트워크 전략을 논의한다. PROFINET 포럼을 통해 자율 공장 구현을 위한 고정밀 제어 및 보안 기술의 미래를 직접 확인할 수 있다.
WindEnergy
InterPACK

Related Articles

fastech EtherCAT
as-interface
ADI, 차세대 ‘A²B 2.0’ 양산… 케이블 경량화로 차량 연비 혁신 이끈다

ADI, 차세대 ‘A²B 2.0’ 양산… 케이블 경량화로 차량 연비 혁신 이끈다

0
ADI의 A²B 2.0은 배선 복잡도를 75% 줄이는 경량화 설계를 통해 차량 연비 경쟁력을 높이는 동시에, 고대역폭 이더넷 통합으로 SDV 시대의 프리미엄 오디오 인프라를 선점하고 있다
콩가텍, 엔트리급 에지 AI 시장 겨냥한 ‘conga-TC300’ 모듈 출시

콩가텍, 엔트리급 에지 AI 시장 겨냥한 ‘conga-TC300’ 모듈 출시

0
콩가텍의 conga-TC300은 엔트리급 저전력 모듈에 하이엔드급 NPU 기술을 통합함으로써, 중소규모 산업 현장에서도 비용 효율적으로 고성능 에지 AI 솔루션을 도입할 수 있는 새로운 시장 표준을 제시했다
벡터코리아, 전기차 충전 보안 잡는 ‘CANoe Test Package EV – Security’ 출시

벡터코리아, 전기차 충전 보안 잡는 ‘CANoe Test Package EV – Security’...

0
벡터의 신규 보안 테스트 솔루션은 전기차 충전 시장의 글로벌 표준인 ISO 15118 보안 검증을 자동화함으로써, 제조사의 사이버 보안 리스크 관리 비용을 절감하고 차별화된 충전 서비스 경쟁력을 확보하게 한다.
ST, 저저항 Smart STripFET F8 MOSFET으로 자동차 전력 혁신 선도

ST, 저저항 Smart STripFET F8 MOSFET으로 자동차 전력 혁신 선도

0
ST의 신규 MOSFET 시리즈는 업계 최저 수준의 저항과 소형화된 패키징 기술을 통해 전기차의 에너지 효율을 개선하고 제조 공정의 신뢰성을 높임으로써 차세대 모빌리티 시장의 기술적 우위를 제공한다.
마우저, 진동 데이터를 클라우드로 직결하는 암페놀 ‘VDS130’ 공급

마우저, 진동 데이터를 클라우드로 직결하는 암페놀 ‘VDS130’ 공급

0
마우저가 공급하는 암페놀 VDS130은 기존 아날로그 진동 센서 자산을 유지하면서도 현장 데이터를 MQTT 클라우드로 즉시 연결해 주어, 산업 현장의 디지털 전환 비용과 시간을 획기적으로 줄여준다
피닉스컨택트, 유지보수·보안성 강화한 실외용 스마트 이더넷 박스 출시

피닉스컨택트, 유지보수·보안성 강화한 실외용 스마트 이더넷 박스 출시

0
피닉스컨택트가 실외에서 사용하는 똑똑한 통신 상자인 스마트 이더넷 박스를 업그레이드했다. 가장 큰 장점은 고장이 났을 때 복잡한 광케이블을 다시 연결할 필요 없이 상자 본체만 갈아 끼울 수 있어 복구 시간이 매우 짧다는 것
- Our Youtube Channel -Engineers Youtube Channel

Latest Articles