목록으로 가기

<출처=픽사베이>
지난주 우리는 인공지능 컨택센터(AI 콜센터)의 혁신 사례와 관련 기술을 살펴봤습니다. 챗봇 상담, 음성인식(STT)을 접목한 상담사 업무 지원이 그 예였는데요. 여기서 우리가 더 깊이 알면 좋을 기술이 있습니다. 바로 음성인식이죠. 이는 음성언어를 활자화한 기술인데요. 우리에겐 AI 스피커나 음성검색 기능으로도 익숙합니다. 음성인식은 이미 우리 일상을 편리하게 해줍니다. 우리가 손 하나 까딱하지 않고 내비게이션으로 길을 찾거나 쇼핑몰에서 생필품을 주문하도록 도와주죠.
특히 음성인식은 최근 코로나 19 여파로 떠오른 비대면(Untact, 언택트) 소통에서도 활약합니다. 요즘 사무실에서는 화상회의가 늘고, 학교에서도 원격강의를 진행하고 있죠. 기술기업 액션파워에 따르면 음성인식으로 회의록 작성, 강의 자막 제작을 돕는 서비스를 찾는 이들이 늘고 있다고 합니다. 지난번 AI 컨택센터 글에서도 언급한 사례인데요. AI가 코로나 19 자가격리자에게 전화로 상태를 확인하는 데도 음성인식이 쓰이고 있죠.
사람 목소리를 인위로 합성해 만드는 음성합성(TTS)도 비대면 소통에서 큰 역할을 합니다. 이는 활자를 음성으로 전환하는데요. 구글 어시스턴트 같은 음성비서의 목소리도 이 기술로 만들었죠. 또 요즘은 AI에서도 개인화가 중요해지면서 가족 목소리에 음성합성을 접목한 서비스도 나옵니다. KT의 ‘내 목소리 동화’가 그 예죠. 부모가 300문장을 녹음하면 AI가 이를 학습, 자녀에게 동화책을 읽어주는데요. 가족이 함께 시간을 보낼 수 없을 때 이를 활용할 수 있겠죠.

<출처=아마존>
AI 기술 발전에 힘입어 음성은 터치스크린을 잇는 차세대 인터페이스가 됐습니다. 2010년대 들어모바일 시대가 본격 도래했고요. 애플, 구글, 아마존에서도 음성비서를 잇따라 출시했죠. AI 스피커와 스마트홈이 확산하면서 음성기술의 저변은 넓어졌습니다. 모든 길이 로마를 통한다면, 이제는 모든 디지털 기기는 음성을 통해 연결될 것으로 예상되는데요. 과학기술정보통신부의 '2019 인터넷 이용실태조사’에 따르면 AI 음성인식 서비스는 일부 연령층에서 대중화 단계로 진입했다고 합니다. 20대(42.3%), 30대(38.9%)의 이 서비스 이용률이 40%를 넘나들죠.
이제는 뉴스·음악 청취와 날씨·교통정보, 일정관리 서비스까지 음성기술과 연계되고 있는데요. 그만큼 음성기술은 우리 일상의 필수품이 되고 있습니다. 아울러 기술 발전에 힘입어 예전과 달리 적은 데이터로 음성을 인식하거나 더 효율적으로 새로운 음성도 만들 수 있죠. 오늘은 음성인식, 음성합성 기술의 개념과 발전과정을 살펴보고요. 솔트룩스의 두 기술이 AI ‘평양친구’를 통해 어떻게 구현됐는지 들여다보겠습니다.
음성인식은 컴퓨터가 사람의 음성언어를 해석해서 활자(단어 또는 문장)로 바꾸는 기술입니다. 이는 오늘날 손가락 터치, 마우스, 키보드를 사용하지 않고 목소리로 원하는 기기, 서비스를 작동시키는 기술도 뜻하죠. 구글 어시스턴트가 탑재된 안드로이드 스마트폰에 “자장가를 불러 달라”고 말하면 이를 들려주는 것. 아마존 알렉사가 탑재된 AI 스피커에 뉴스를 들려 달라고 하면 브리핑을 해주는 것. LG 시그니처 와인셀러의 와인 보관실 문을 음성으로 여는 게 그 예입니다.
음성인식의 작동원리는 이렇습니다. 연구개발특구진흥재단에 따르면 음성이 입력되면 이를 분석하고 특징을 추출합니다. 그 다음 미리 수집한 음성모델 데이터베이스와 얼마나 비슷한지 측정하고요. 이어 가장 비슷한 걸 활자나 명령어로 바꾸며 음성인식을 진행하죠. 여기서는 인식률이 중요한데요. 이 때문에 음성모델 DB를 구축할 때 최대한 많은 이들에게서 데이터를 모읍니다. 사람마다 목소리, 발음, 억양이 다르니까요. 이렇게 수집한 DB에서 공통 특징을 뽑아 기준을 만들죠.
음성인식은 연구된 지 생각보다 오래됐습니다. 1952년 미국 통신사 AT&T의 벨연구소가 개발한 음성인식 컴퓨터 ‘오드리’가 시작이었는데요. 오드리는 1~9 숫자를 음성으로 인식할 수 있었죠. 이후 IBM(슈박스)과 미국과 소련 등 여러 국가 연구소에서도 음성인식을 연구했습니다. 이 기술은 1990년대 들어 상용화됐다고 합니다. 1997년엔 드래곤의 음성인식 소프트웨어 ‘드래곤 내추럴리 스피킹’이 나왔는데요. 음성인식 분야 대표 기업 중 하나인 뉘앙스 커뮤니케이션에서 개발했죠.

<아마존 트랜스크라이브 메디컬 설명, 출처=아마존웹서비스>
2010년대 들어 음성인식은 대중들 사이에서 본격적으로 존재감을 발휘합니다. 그 중심에는 애플의 음성비서 ‘시리’가 있었죠. 이후 구글 어시스턴트, 아마존 알렉사도 나왔고요. 두 회사의 음성비서는 냉장고, TV, 전자레인지, 자동차 등에 탑재되며 거미줄 생태계를 구축합니다. 가정에서는 전자레인지에 말을 걸어 팝콘을 튀길 수 있고요(아마존 베이직 마이크로웨이브). 병원에서는 의사가 구술한 메모 내용, 환자 상담 내용을 음성에서 활자로 바꿀 수 있죠(아마존 트랜스크라이브 메디컬). 이렇게 음성 인터페이스는 터치스크린의 대체자로 떠올랐습니다.
그 이유는 뭘까? 먼저 편의성인데요. 음성은 사람의 말소리, 목소리입니다. 우리에게 가장 원초적이고 친숙한 소통 수단이죠. 직관적이고 편리합니다. 손가락으로 화면을 터치하는 것보다 음성인식으로 원하는 기능을 작동시키는 게 더 쉽죠. 2007년 아이폰 출시 이후 소형 모바일 기기가 대중화됐는데요. 이로써 모바일 기기의 이동성도 더 중요해졌죠. 잘 들고 다니려면 사용하기 편리해야 합니다. 음성인식을 활용하면 이동하면서도 모바일 기기를 더 편하게 이용할 수 있고요. 또 시각장애인이 이용할 수 있기 때문에 디지털 사각지대를 해소하는 데 도움되죠.
기술 발전도 따라줬습니다. 음성 인식률이 높아졌는데요. 삼정KPMG에 따르면 데이터 양이 늘고, 학습할수록 정확도가 높아지는 딥러닝 기술이 여기에 한몫합니다. 최대한 많은 DB를 구축해야 인식률이 개선되죠. 특히 음성인식 제품이 인터넷으로 데이터 센터와 연결된 건 의미있는데요. 음성인식으로 방대한 음성언어 데이터가 수집되고요. 클라우드, 데이터 센터는 이런 데이터를 처리하는 데 도움되죠. 방대한 데이터를 분석하면 사람의 대화 패턴을 정밀하게 파악할 수 있고요. 다양한 어휘, 지역 억양, 구어 표현, 대화 문맥까지 이해할 수 있습니다. 답도 빨리 찾을 수 있고요.
그렇다면 음성인식은 현재 어느 수준까지 발전했을까요? 평가는 분분합니다. 크게 발전했다고 보는 시각은 이렇습니다. 과거 음성인식은 1~2개의 단어 조합에 대해서만 적용됐는데요. 이후 문장을 인식할 수 있을 만큼 개선됐고요. 대화와 의미도 분석합니다. 심지어 화자가 쓰는 단어, 목소리 톤을 통해 감정도 파악하죠. 물론 음성인식으로 인간의 모든 언어 표현을 파악할 수 있는 건 아닙니다. 그래도 구글을 비롯해 주요 기술 기업의 인식률은 95%라고 하죠. 또 비디오, 오디오 정보를 결합한 음성인식도 개발되고 있고요. 음성인식 엔진의 학습시간과 학습량도 줄고 있습니다.

<스티븐 호킹, 출처=위키피디아>
음성합성은 인공적으로 사람의 목소리를 합성해 만드는 기술입니다. 이는 활자를 음성으로 변환하는데요. 활자에 없는 발음, 속도, 호흡, 운율을 추정해 앞서 녹음한 사람과 가장 비슷하고 자연스럽게 음성을 만드는 거죠. 영국 물리학자 스티븐 호킹 박사 기억하시죠? 그는 기관지 절개 수술을 받고 목소리를 낼 수 없었는데요. 그가 대중과 소통할 수 있었던 건 바로 음성합성 덕분이었습니다. 그는 컴퓨터에 얼굴 근육으로 작동하는 센서로 활자를 입력했고요. 음성합성기가 이를 음성으로 바꿔 메시지를 전달했죠.
이 기술은 음성인식보다 더 오래됐습니다. 18세기 헝가리의 볼프강 폰 켐펠렌 남작이 음성합성을 처음 시도했다고 하는데요. 그는 풀무로 합성기를 만들었다고 합니다. 이후 음성합성은 전기적 분석, 컴퓨터 등을 활용하며 발전했죠. 대체 음성합성으로 어떻게 목소리를 만들까요? 그동안 널리 쓰인 방식은 이렇습니다. 먼저 만들고자 하는 목소리의 모델(화자)을 선정하고요. 녹음실에서 화자에게 원고를 읽혀 그의 말을 녹음합니다. 이어서 텍스트를 전처리하며 발음 기호를 변환하고요. 운율을 예측하고 음향을 모델링하며 신호를 합성해 목소리를 만들죠.
이런 식으로 목소리를 만들려면 품이 많이 들었습니다. 일단 방대한 녹음 파일(40~100시간)이 필요한데요. 성우 혼자서 40시간 분량의 녹음을 하려면 꼬박 두달은 걸린다고 하죠. 돈도 많이 들고요. 개발자가 알아야 할 것도 많습니다. 발성기관 구조와 원리, 음성학, 음운론, 음성 신호처리 지식이 필요하죠. 종합적 언어지식은 물론 오랜 노하우가 있어야 하고요. 그러나 최근에는 딥러닝 기술에 힘입어 이 과정이 많이 효율화 됐습니다. 여기에는 구글의 타코트론 시스템도 많이 기여했다고 하는데요. 타코트론이 발표되고 나서 딥러닝에 기반한 음성합성 연구가 활발해졌습니다.

<출처=네이버랩스>
그렇다면 오늘날 음성합성은 어떤 방향으로 개발되고 있을까요? 요즘 이 기술에서 눈에 띄는 건 바로 ‘개인화’입니다. 개인의 특성을 살린 음성을 만드는 건데요. 배우 유인나가 읽어주는 오디오북(네이버), 배우 강소라의 목소리로 안내하는 음성비서 ‘빅스비’(삼성전자) 등이 그 예죠. 사실 유명인의 목소리나 KT의 ‘내 목소리 동화’처럼 가족의 목소리를 활용한 음성 서비스는 10여년 전부터 수요가 있었습니다. 아울러 미국 도널드 트럼프 대통령이 부른 방탄소년단의 ‘Fake Love’(네오사피엔스)처럼 합성한 음성으로 다국어를 구사하려는 사례도 있죠.
특히 적은 데이터로, 빠르게 음성합성을 하려는 움직임은 계속 이어지고 있습니다. 네이버가 40분 분량의 음성으로도 합성할 수 있다고 하고요. 엔씨소프트는 김영하 작가가 녹음한 10분 분량의 목소리로 음성합성을 하기도 했습니다. 카카오는 TTS 모델을 경량화해 딥러닝 속도를 3배 높였습니다. 자연스러운 음성을 만드는 것도 꾸준한 지향점인데요. 구글 듀플렉스처럼 감쪽같이 사람 목소리를 내는 사례도 있습니다만. 아직도 음성합성으로 만든 목소리는 조금 어색하죠. 목소리의 감정과 스타일을 조절하는 방법에 대한 연구는 현재 진행형입니다.
솔트룩스의 음성인식 엔진의 강점 중 하나는 방대한 데이터를 사전 학습한 거죠. 음향·언어모델의 경우 1200시간 분량의 한국어 데이터를 학습한 기본 모델을 갖췄습니다. 또 11개 언어별로 6000명이 훌쩍 넘는 화자들에게서 여러 상황에 대한 음성 데이터를 확보했는데요. 한국어, 영어, 중국어, 일본어 음성 데이터는 물론이고요. 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어 대화체 발화 데이터도 있죠. 북한 남녀 발화 데이터도 있는데요. 이는 AI ‘평양친구’ 개발에 쓰입니다.
앞서 최대한 많은 음성 데이터를 모으는 게 음성인식의 정확도에 있어서 중요하다고 했는데요. 솔트룩스의 방대한 음성 데이터, 다국어 음성 데이터는 인식률을 높이는 핵심 재료입니다. 이로써 고품질 음성인식 서비스를 제공하는 데 도움을 주고요. 솔트룩스는 이 같은 음성 데이터를 토대로 딥러닝에 기반한 음향 모델 적응학습을 음성인식 엔진에 쓰고 있습니다.
그러나 솔트룩스 음성인식 엔진의 최대 경쟁력은 데이터가 적어도 인식률이 높다는 건데요. 이는적은 데이터로도 음향·언어모델을 최적화한 적응학습 모델을 보유했기 때문입니다. 대화 데이터 시간이 기존보다 약 4배 적어도 성능은 더 높은데요. 기존 베이스라인 모델로 음성인식을 하면 정확도는 약 75.75%(대화 데이터 1200시간, 1000문장)가 나옵니다. 그러나 적응학습 모델로 음성인식을 하면 정확도는 약 89.47%(대화 데이터 240시간, 1000문장)로 오르죠.
여기서 우리가 알아두면 좋을 기술이 하나 있습니다. 바로 액티브 러닝인데요. 이 기술은 학습에 필요한 선별 데이터가 풍부하지 않을 때 데이터 일부만 학습시켜 활용하는 겁니다. 즉, 적은 데이터(스몰 데이터)로도 음성인식기를 학습할 수 있죠. 여기선 어떤 음성 데이터를 먼저 선별해서 음성인식기를 학습시킬 것인지가 핵심입니다. 그동안 음성인식 기술은 1세대(간단한 기계학습, 신호 분석), 2세대(딥러닝)로 발전해왔는데요. 이제는 액티브 러닝을 적용한 3세대로 나아가고 있죠.
최근 솔트룩스는 아틀라스랩스와 ‘음성인식 액티브 러닝’을 공동 연구, 개발했는데요. 이를 활용하면 전체 3분 1수준의 데이터로도 학습할 수 있죠. 음성인식 비용과 시간을 70% 이상 줄일 수 있고요. 음성인식 엔진의 음향모델도 최적화됩니다. 사실 기업에서 컨택센터(콜센터)를 운영하다보면 방대한 데이터가 발생하지만 음성인식 엔진이 인식하기 어려운 것도 있는데요. 액티브 러닝은 이런 고위험군 데이터를 선별해 학습에 반영할 수 있습니다. 이로써 컨택센터의 상담 카테고리가 늘거나 새로운 고객이 생길 때 사용할 수 있고요. 솔트룩스는 올해 중 이 기술을 음성인식 엔진에 적용, 차별화할 계획입니다.
앞서 음성합성 개발방향은 개인화와 자연스러운 음성 구현을 지향하고 있다고 했는데요. 솔트룩스의 음성합성 엔진도 마찬가지입니다. 기본적으로 학습한 사람 목소리와 최대한 비슷한 어조와 억양을 구현하고요. 특정 개인의 목소리, 특정 도메인의 음성파일을 실시간 학습해서 개인화된 음성도 만들 수 있습니다.
솔트룩스의 음성합성 엔진의 강점 중 하나는 적은 데이터로 빠르게 목소리를 만들 수 있다는 점입니다. 비개발자에게 ‘전이학습’은 낯선 용어일텐데요. 이는 기존의 잘 훈련된 모델을 기반으로 새로운 화자의 음성 데이터를 추가로 학습하는 방법이죠. 솔트룩스 기술은 이를 활용해 음성합성을 하는데요. 30분 분량의 데이터로도 목소리를 만들 수 있습니다. 웹 관리도구를 통해 반나절에서 하루정도면 서비스할 수 있는 API 형태의 맞춤형 음성 모델을 배포할 수 있죠. 이렇게 하면 대규모 음성 전사 작업을 줄일 수 있는데요. 비용 절감도 꾀할 수 있습니다. 효율성도 담보하고요.
자연스러운 음성을 구현하는 것도 가능한데요. 솔트룩스는 구글 타코트론과 타코트론2 모델을 적용한 하이브리드 타코트론 딥러닝 모델을 활용해 딥러닝의 한계를 보완합니다. 이제는 딥러닝으로 음성합성을 하는 게 상당수죠. 그러나 품질과 성능에 아쉬움이 있습니다. 타코트론은 학습 과정에서 성능을 보장할 수 있고요. 타코트론2는 자연스러운 음성합성을 담보하죠. 솔트룩스에서는 두가지 모델을 혼용함으로써 합성음성의 음질과 억양을 자연스럽게 만듭니다.
한국어 음성합성 엔진의 한계도 보완하는데요. 대부분의 한국어 음성합성 엔진은 한글 이외 발음을 구현하기가 어렵습니다. 영어단어, 숫자, 단위 등이 그 예죠. 음성합성을 도입하려는 어떤 서비스가 있다고 가정합시다. 이 서비스에서 쓰는 상품명은 계속 늘어나고 있는데요. 실제 대다수가 영어나 숫자가 조합된 신조어라서 한국어 음성합성 엔진으로 읽기 힘듭니다. 영어를 모르는 사람이 이를 맞닥뜨렸을 때 입을 열 수 없는 상황과 같죠. 솔트룩스에서는 이런 비한글 발음(표기)도 자동으로 예측하고, 원활하게 변환하고요. 이로써 최대한 자연스럽게 발음할 수 있습니다.
지난해 솔트룩스는 서울시, 통일부와 함께 세계 최초로 가상 평양사람을 만들었습니다. 바로 ‘내 생애 첫 평양친구’인데요. 여기에는 솔트룩스의 음성기술과 AI 기술을 적용했습니다. 평양친구는 북한에 대한 정보를 습득했고요. 평양 출신 북한이탈주민의 말투와 억양도 구현할 수 있죠. 예를 들어 “북한에도 지하철이 있어?”라고 물으면요. 평양친구는 이 목소리를 인식, “북한에도 지하철이 있습니다. 남쪽보다 더 일찍 개통했다고 해요”라고 평양 말투로 답하는 식입니다.
평양친구는 평양 소학교 5학년 김평린, 평양 김책 공대를 다니는 대학생 림한길, 평양 관광 안내원 리소원 이렇게 세명인데요. 김평린은 북한 학생들의 학교생활과 놀이문화, 음식문화를 주제로 대화할 수 있습니다. 림한길은 북한의 IT, 교육, 사회, 문화생활 등에 대해 이야기를 나눌 수 있고요. 리소원은 평양의 명소와 교통, 관광, 패션 등을 주제로 대화가 가능하죠.
솔트룩스의 기술은 어떻게 AI 평양친구에 구현됐을까요? 먼저 음성부터 살펴봅시다. 앞서 솔트룩스에는 대용량 다국어 음성 DB가 구축돼 있다고 했죠. 여기에는 북한 남녀의 발화 데이터도 있고요. 솔트룩스에서는 평양 출신 북한이탈주민을 섭외해 평양 말투와 억양을 전이 학습했습니다. 이를 토대로 한 딥러닝 기반 음성합성을 통해 평양친구의 목소리를 만들었죠.
사실 평양친구는 주어진 질문에 딱딱하게 답하는, 개성없는 AI는 아닙니다. 앞서 음성합성에도 개인화가 중요해지고 있다고 했죠. 평양친구는 여학생, 대학생, 안내원으로서 저마다 정체성을 가졌으며, 개인화됐습니다. 이는 평양친구의 목소리에서도 느낄 수 있죠. 솔트룩스는 감정표현이 가능한 음성합성을 통해 평양친구에 이를 구현합니다. 앞서 솔트룩스에서 적은 데이터로도 음성합성이 가능하다고 했는데요. 평양친구에서도 3시간 분량의 목소리로 품질높은 합성 음성을 만들었죠.
그렇다면 평양친구의 뇌에 지식은 어떻게 입력된 걸까요? 솔트룩스에서는 통일부 자료와 북한정보포털 학습, 북한학 연구교수들의 검수를 거쳐 북한 관련 지식을 구축했습니다. 이를 평양친구의 뇌에 탑재했죠. 특히 북한 관련 언어지식은 남북이 공동 편찬한 겨레말큰사전의 DB와 북한이탈주민들의 인터뷰 내용을 반영했고요. 평양친구는 친근하게 대화한다는 느낌이 드는 게 중요했습니다. 이에 대화 모델을 구축할 때 평양의 일상성을 담도록 신경 썼죠. 70년 분단의 간극을 AI로 메우는 의미있는 시도였습니다.

<출처=픽사베이>
지금까지 음성인식, 음성합성의 개념과 작동원리, 발전과정을 살펴보고요. 솔트룩스의 관련 기술은 어떻게 차별화됐는지 짚어봤습니다. 또 음성기술과 AI 기술이 가상의 평양친구를 구현한 과정도 들여다봤고요. 이번 글의 요점은 이렇게 정리할 수 있습니다.
<참고자료>
1.정훈규, ‘'AI 받아쓰기' 다글로, 출시 1주년 기념 이벤트’, 서울경제TV, 2020.4.10, www.sentv.co.kr/news/view/571400
2.김원, ‘AI가 회의록도 정리해준다…네이버, 새 음성인식 기술 공개’, 중앙일보, 2020.4.13, news.joins.com/article/23753349
3.김윤진, ‘음성 인식 AI ‘공간 파괴’… 아파트 넘어 호텔-車로 서비스 확대’, 동아일보, 2019.11.27, www.donga.com/news/article/all/20191126/98549706/1
4.박정엽, ’음성 인터페이스 시대-음성이 자극하는 콘텐츠 소비’, 미래에셋대우, 2017.11.13, www.miraeassetdaewoo.com/bbs/maildownload/2017111317422847_154
5.김지나, ‘"AI 음성인식 대중화단계로"…20대, 10명 중 4명 사용’, 뉴스핌, 2020.2.26, www.newspim.com/news/view/20200226000482
6.’문화기술(CT) 심층 리포트’, 한국콘텐츠진흥원, 2011.12.7, www.kocca.kr/cop/bbs/view/B0000144/1756144.do?menuNo=
7.’음성인식 기술 시장’, 연구개발특구진흥재단, 2017.9, rnd.compa.re.kr/fileDownload.do?filePath=techMarket&fileName=techMarket_Report_160.pdf
8.전효진, ‘'LG 시그니처 와인셀러', 세계적 와인평론가가 알린다’, 조선비즈, 2020.3.22, biz.chosun.com/site/data/html_dir/2020/03/22/2020032200291.html
9.’Amazon Transcribe Medical’, AWS, 2020.4.17 접속, aws.amazon.com/ko/transcribe/medical/
10.전창의, 이효정, 김기범, ‘음성 AI 시장의 동향과 비즈니스 기회’, 삼정KPMG, 2020.4, assets.kpmg/content/dam/kpmg/kr/pdf/2020/kr-im-126-voice-ai-20200414.pdf
11.이상오, ‘AI 음성인식, 감정까지 잡아낸다고?’, 공학저널, 2020.4.14, www.engjournal.co.kr/news/articleView.html?idxno=683
12.Brian Dumaine, ’[포춘US]아마존·애플·구글의 음성인식 기술 경쟁’, 포춘, 2018.12.4, www.fortunekorea.co.kr/news/articleView.html?idxno=10781
13.이대호, ‘‘보고 듣는’ 차세대 음성인식은 무엇?’, 디지털데일리, 2019.12.3, m.ddaily.co.kr/m/m_article/?no=189096
14.김원, ’AI가 회의록도 정리해준다…네이버, 새 음성인식 기술 공개’, 중앙일보, 2020.4.13, news.joins.com/article/23753349
15.’음성합성’, 2020.4.17 접속, www.aistudy.co.kr/linguistics/speech/synthesis_oh.htm
16.이봉준, ‘누구나 만드는 내 목소리 합성기(부제: 그게 정말 되나요?)’, 네이버, 2018.10.12, www.slideshare.net/deview/222-119159969
17.조훈영, ‘게임과 AI #5 음성 합성 기술’, 엔씨소프트, 2017.12.15, blog.ncsoft.com/%ea%b2%8c%ec%9e%84%ea%b3%bc-ai-5-%ec%9d%8c%ec%84%b1-%ed%95%a9%ec%84%b1-%ea%b8%b0%ec%88%a0/
18.이준모, 이경훈, 김영익, 조훈영, ‘End-to-End 개인화 음성합성 기술 #1’, 엔씨소프트, 2019.7.17, blog.ncsoft.com/end-to-end-speech-synthesis-1/
19.이영근, ‘감정연기와 외국어가 가능한 인공지능 성우’, 네이버 데뷰 2019, 2019.10.28, deview.kr/data/deview/2019/presentation/[112]%E1%84%80%E1%85%A1%E1%86%B7%E1%84%8C%E1%85%A5%E1%86%BC%E1%84%8B%E1%85%A7%E1%86%AB%E1%84%80%E1%85%B5%E1%84%8B%E1%85%AA%20%E1%84%8B%E1%85%AC%E1%84%80%E1%85%AE%E1%86%A8%E1%84%8B%E1%85%A5%E1%84%80%E1%85%A1%20%E1%84%80%E1%85%A1%E1%84%82%E1%85%B3%E1%86%BC%E1%84%92%E1%85%A1%E1%86%AB%20%E1%84%8B%E1%85%B5%E1%86%AB%E1%84%80%E1%85%A9%E1%86%BC%E1%84%8C%E1%85%B5%E1%84%82%E1%85%B3%E1%86%BC%20%E1%84%89%E1%85%A5%E1%86%BC%E1%84%8B%E1%85%AE__.pdf
20.이대호, ‘‘40시간→40분’ 음성합성 혁신…네이버 ‘클로바더빙’ 내놨다’, 디지털데일리, 2020.2.10, m.ddaily.co.kr/m/m_article/?no=191650
21.김시소, ‘"속보 읽는 AI 아나운서 " 카카오 3배 빠른 딥러닝 TTS 상용화’, 전자신문, 2019.11.6, m.etnews.com/20191106000272
▶음성인식 엔진 자세히 보기
▶음성합성 엔진 자세히 보기
▶블로그 원문 보기: http://blog.saltlux.com/221920562327

목록으로 가기
‘비대면 소통’ 혁신하는 핵심 기술…음성인식, 음성합성 알아보기
공지사항
2020-04-21

<출처=픽사베이>
지난주 우리는 인공지능 컨택센터(AI 콜센터)의 혁신 사례와 관련 기술을 살펴봤습니다. 챗봇 상담, 음성인식(STT)을 접목한 상담사 업무 지원이 그 예였는데요. 여기서 우리가 더 깊이 알면 좋을 기술이 있습니다. 바로 음성인식이죠. 이는 음성언어를 활자화한 기술인데요. 우리에겐 AI 스피커나 음성검색 기능으로도 익숙합니다. 음성인식은 이미 우리 일상을 편리하게 해줍니다. 우리가 손 하나 까딱하지 않고 내비게이션으로 길을 찾거나 쇼핑몰에서 생필품을 주문하도록 도와주죠.
특히 음성인식은 최근 코로나 19 여파로 떠오른 비대면(Untact, 언택트) 소통에서도 활약합니다. 요즘 사무실에서는 화상회의가 늘고, 학교에서도 원격강의를 진행하고 있죠. 기술기업 액션파워에 따르면 음성인식으로 회의록 작성, 강의 자막 제작을 돕는 서비스를 찾는 이들이 늘고 있다고 합니다. 지난번 AI 컨택센터 글에서도 언급한 사례인데요. AI가 코로나 19 자가격리자에게 전화로 상태를 확인하는 데도 음성인식이 쓰이고 있죠.
사람 목소리를 인위로 합성해 만드는 음성합성(TTS)도 비대면 소통에서 큰 역할을 합니다. 이는 활자를 음성으로 전환하는데요. 구글 어시스턴트 같은 음성비서의 목소리도 이 기술로 만들었죠. 또 요즘은 AI에서도 개인화가 중요해지면서 가족 목소리에 음성합성을 접목한 서비스도 나옵니다. KT의 ‘내 목소리 동화’가 그 예죠. 부모가 300문장을 녹음하면 AI가 이를 학습, 자녀에게 동화책을 읽어주는데요. 가족이 함께 시간을 보낼 수 없을 때 이를 활용할 수 있겠죠.

<출처=아마존>
AI 기술 발전에 힘입어 음성은 터치스크린을 잇는 차세대 인터페이스가 됐습니다. 2010년대 들어모바일 시대가 본격 도래했고요. 애플, 구글, 아마존에서도 음성비서를 잇따라 출시했죠. AI 스피커와 스마트홈이 확산하면서 음성기술의 저변은 넓어졌습니다. 모든 길이 로마를 통한다면, 이제는 모든 디지털 기기는 음성을 통해 연결될 것으로 예상되는데요. 과학기술정보통신부의 '2019 인터넷 이용실태조사’에 따르면 AI 음성인식 서비스는 일부 연령층에서 대중화 단계로 진입했다고 합니다. 20대(42.3%), 30대(38.9%)의 이 서비스 이용률이 40%를 넘나들죠.
이제는 뉴스·음악 청취와 날씨·교통정보, 일정관리 서비스까지 음성기술과 연계되고 있는데요. 그만큼 음성기술은 우리 일상의 필수품이 되고 있습니다. 아울러 기술 발전에 힘입어 예전과 달리 적은 데이터로 음성을 인식하거나 더 효율적으로 새로운 음성도 만들 수 있죠. 오늘은 음성인식, 음성합성 기술의 개념과 발전과정을 살펴보고요. 솔트룩스의 두 기술이 AI ‘평양친구’를 통해 어떻게 구현됐는지 들여다보겠습니다.
70년만에 황금기 맞은 음성인식

음성인식은 컴퓨터가 사람의 음성언어를 해석해서 활자(단어 또는 문장)로 바꾸는 기술입니다. 이는 오늘날 손가락 터치, 마우스, 키보드를 사용하지 않고 목소리로 원하는 기기, 서비스를 작동시키는 기술도 뜻하죠. 구글 어시스턴트가 탑재된 안드로이드 스마트폰에 “자장가를 불러 달라”고 말하면 이를 들려주는 것. 아마존 알렉사가 탑재된 AI 스피커에 뉴스를 들려 달라고 하면 브리핑을 해주는 것. LG 시그니처 와인셀러의 와인 보관실 문을 음성으로 여는 게 그 예입니다.
음성인식의 작동원리는 이렇습니다. 연구개발특구진흥재단에 따르면 음성이 입력되면 이를 분석하고 특징을 추출합니다. 그 다음 미리 수집한 음성모델 데이터베이스와 얼마나 비슷한지 측정하고요. 이어 가장 비슷한 걸 활자나 명령어로 바꾸며 음성인식을 진행하죠. 여기서는 인식률이 중요한데요. 이 때문에 음성모델 DB를 구축할 때 최대한 많은 이들에게서 데이터를 모읍니다. 사람마다 목소리, 발음, 억양이 다르니까요. 이렇게 수집한 DB에서 공통 특징을 뽑아 기준을 만들죠.
음성인식은 연구된 지 생각보다 오래됐습니다. 1952년 미국 통신사 AT&T의 벨연구소가 개발한 음성인식 컴퓨터 ‘오드리’가 시작이었는데요. 오드리는 1~9 숫자를 음성으로 인식할 수 있었죠. 이후 IBM(슈박스)과 미국과 소련 등 여러 국가 연구소에서도 음성인식을 연구했습니다. 이 기술은 1990년대 들어 상용화됐다고 합니다. 1997년엔 드래곤의 음성인식 소프트웨어 ‘드래곤 내추럴리 스피킹’이 나왔는데요. 음성인식 분야 대표 기업 중 하나인 뉘앙스 커뮤니케이션에서 개발했죠.

<아마존 트랜스크라이브 메디컬 설명, 출처=아마존웹서비스>
2010년대 들어 음성인식은 대중들 사이에서 본격적으로 존재감을 발휘합니다. 그 중심에는 애플의 음성비서 ‘시리’가 있었죠. 이후 구글 어시스턴트, 아마존 알렉사도 나왔고요. 두 회사의 음성비서는 냉장고, TV, 전자레인지, 자동차 등에 탑재되며 거미줄 생태계를 구축합니다. 가정에서는 전자레인지에 말을 걸어 팝콘을 튀길 수 있고요(아마존 베이직 마이크로웨이브). 병원에서는 의사가 구술한 메모 내용, 환자 상담 내용을 음성에서 활자로 바꿀 수 있죠(아마존 트랜스크라이브 메디컬). 이렇게 음성 인터페이스는 터치스크린의 대체자로 떠올랐습니다.
그 이유는 뭘까? 먼저 편의성인데요. 음성은 사람의 말소리, 목소리입니다. 우리에게 가장 원초적이고 친숙한 소통 수단이죠. 직관적이고 편리합니다. 손가락으로 화면을 터치하는 것보다 음성인식으로 원하는 기능을 작동시키는 게 더 쉽죠. 2007년 아이폰 출시 이후 소형 모바일 기기가 대중화됐는데요. 이로써 모바일 기기의 이동성도 더 중요해졌죠. 잘 들고 다니려면 사용하기 편리해야 합니다. 음성인식을 활용하면 이동하면서도 모바일 기기를 더 편하게 이용할 수 있고요. 또 시각장애인이 이용할 수 있기 때문에 디지털 사각지대를 해소하는 데 도움되죠.
기술 발전도 따라줬습니다. 음성 인식률이 높아졌는데요. 삼정KPMG에 따르면 데이터 양이 늘고, 학습할수록 정확도가 높아지는 딥러닝 기술이 여기에 한몫합니다. 최대한 많은 DB를 구축해야 인식률이 개선되죠. 특히 음성인식 제품이 인터넷으로 데이터 센터와 연결된 건 의미있는데요. 음성인식으로 방대한 음성언어 데이터가 수집되고요. 클라우드, 데이터 센터는 이런 데이터를 처리하는 데 도움되죠. 방대한 데이터를 분석하면 사람의 대화 패턴을 정밀하게 파악할 수 있고요. 다양한 어휘, 지역 억양, 구어 표현, 대화 문맥까지 이해할 수 있습니다. 답도 빨리 찾을 수 있고요.
그렇다면 음성인식은 현재 어느 수준까지 발전했을까요? 평가는 분분합니다. 크게 발전했다고 보는 시각은 이렇습니다. 과거 음성인식은 1~2개의 단어 조합에 대해서만 적용됐는데요. 이후 문장을 인식할 수 있을 만큼 개선됐고요. 대화와 의미도 분석합니다. 심지어 화자가 쓰는 단어, 목소리 톤을 통해 감정도 파악하죠. 물론 음성인식으로 인간의 모든 언어 표현을 파악할 수 있는 건 아닙니다. 그래도 구글을 비롯해 주요 기술 기업의 인식률은 95%라고 하죠. 또 비디오, 오디오 정보를 결합한 음성인식도 개발되고 있고요. 음성인식 엔진의 학습시간과 학습량도 줄고 있습니다.
개인화, 다국어 구사, 효율화로 향하는 음성합성

<스티븐 호킹, 출처=위키피디아>
음성합성은 인공적으로 사람의 목소리를 합성해 만드는 기술입니다. 이는 활자를 음성으로 변환하는데요. 활자에 없는 발음, 속도, 호흡, 운율을 추정해 앞서 녹음한 사람과 가장 비슷하고 자연스럽게 음성을 만드는 거죠. 영국 물리학자 스티븐 호킹 박사 기억하시죠? 그는 기관지 절개 수술을 받고 목소리를 낼 수 없었는데요. 그가 대중과 소통할 수 있었던 건 바로 음성합성 덕분이었습니다. 그는 컴퓨터에 얼굴 근육으로 작동하는 센서로 활자를 입력했고요. 음성합성기가 이를 음성으로 바꿔 메시지를 전달했죠.
이 기술은 음성인식보다 더 오래됐습니다. 18세기 헝가리의 볼프강 폰 켐펠렌 남작이 음성합성을 처음 시도했다고 하는데요. 그는 풀무로 합성기를 만들었다고 합니다. 이후 음성합성은 전기적 분석, 컴퓨터 등을 활용하며 발전했죠. 대체 음성합성으로 어떻게 목소리를 만들까요? 그동안 널리 쓰인 방식은 이렇습니다. 먼저 만들고자 하는 목소리의 모델(화자)을 선정하고요. 녹음실에서 화자에게 원고를 읽혀 그의 말을 녹음합니다. 이어서 텍스트를 전처리하며 발음 기호를 변환하고요. 운율을 예측하고 음향을 모델링하며 신호를 합성해 목소리를 만들죠.
이런 식으로 목소리를 만들려면 품이 많이 들었습니다. 일단 방대한 녹음 파일(40~100시간)이 필요한데요. 성우 혼자서 40시간 분량의 녹음을 하려면 꼬박 두달은 걸린다고 하죠. 돈도 많이 들고요. 개발자가 알아야 할 것도 많습니다. 발성기관 구조와 원리, 음성학, 음운론, 음성 신호처리 지식이 필요하죠. 종합적 언어지식은 물론 오랜 노하우가 있어야 하고요. 그러나 최근에는 딥러닝 기술에 힘입어 이 과정이 많이 효율화 됐습니다. 여기에는 구글의 타코트론 시스템도 많이 기여했다고 하는데요. 타코트론이 발표되고 나서 딥러닝에 기반한 음성합성 연구가 활발해졌습니다.

<출처=네이버랩스>
그렇다면 오늘날 음성합성은 어떤 방향으로 개발되고 있을까요? 요즘 이 기술에서 눈에 띄는 건 바로 ‘개인화’입니다. 개인의 특성을 살린 음성을 만드는 건데요. 배우 유인나가 읽어주는 오디오북(네이버), 배우 강소라의 목소리로 안내하는 음성비서 ‘빅스비’(삼성전자) 등이 그 예죠. 사실 유명인의 목소리나 KT의 ‘내 목소리 동화’처럼 가족의 목소리를 활용한 음성 서비스는 10여년 전부터 수요가 있었습니다. 아울러 미국 도널드 트럼프 대통령이 부른 방탄소년단의 ‘Fake Love’(네오사피엔스)처럼 합성한 음성으로 다국어를 구사하려는 사례도 있죠.
특히 적은 데이터로, 빠르게 음성합성을 하려는 움직임은 계속 이어지고 있습니다. 네이버가 40분 분량의 음성으로도 합성할 수 있다고 하고요. 엔씨소프트는 김영하 작가가 녹음한 10분 분량의 목소리로 음성합성을 하기도 했습니다. 카카오는 TTS 모델을 경량화해 딥러닝 속도를 3배 높였습니다. 자연스러운 음성을 만드는 것도 꾸준한 지향점인데요. 구글 듀플렉스처럼 감쪽같이 사람 목소리를 내는 사례도 있습니다만. 아직도 음성합성으로 만든 목소리는 조금 어색하죠. 목소리의 감정과 스타일을 조절하는 방법에 대한 연구는 현재 진행형입니다.
음성기술, 딥러닝을 넘어 액티브 러닝으로
지금까지 음성인식과 음성합성의 기술동향을 살펴봤는데요. 솔트룩스도 이 같은 흐름에 대응해 음성기술을 꾸준히 향상시키고 있습니다. 여기서는 솔트룩스의 음성인식과 음성합성 특징을 짚어보겠습니다.1)음성인식

솔트룩스의 음성인식 엔진의 강점 중 하나는 방대한 데이터를 사전 학습한 거죠. 음향·언어모델의 경우 1200시간 분량의 한국어 데이터를 학습한 기본 모델을 갖췄습니다. 또 11개 언어별로 6000명이 훌쩍 넘는 화자들에게서 여러 상황에 대한 음성 데이터를 확보했는데요. 한국어, 영어, 중국어, 일본어 음성 데이터는 물론이고요. 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 베트남어 대화체 발화 데이터도 있죠. 북한 남녀 발화 데이터도 있는데요. 이는 AI ‘평양친구’ 개발에 쓰입니다.
앞서 최대한 많은 음성 데이터를 모으는 게 음성인식의 정확도에 있어서 중요하다고 했는데요. 솔트룩스의 방대한 음성 데이터, 다국어 음성 데이터는 인식률을 높이는 핵심 재료입니다. 이로써 고품질 음성인식 서비스를 제공하는 데 도움을 주고요. 솔트룩스는 이 같은 음성 데이터를 토대로 딥러닝에 기반한 음향 모델 적응학습을 음성인식 엔진에 쓰고 있습니다.
그러나 솔트룩스 음성인식 엔진의 최대 경쟁력은 데이터가 적어도 인식률이 높다는 건데요. 이는적은 데이터로도 음향·언어모델을 최적화한 적응학습 모델을 보유했기 때문입니다. 대화 데이터 시간이 기존보다 약 4배 적어도 성능은 더 높은데요. 기존 베이스라인 모델로 음성인식을 하면 정확도는 약 75.75%(대화 데이터 1200시간, 1000문장)가 나옵니다. 그러나 적응학습 모델로 음성인식을 하면 정확도는 약 89.47%(대화 데이터 240시간, 1000문장)로 오르죠.
여기서 우리가 알아두면 좋을 기술이 하나 있습니다. 바로 액티브 러닝인데요. 이 기술은 학습에 필요한 선별 데이터가 풍부하지 않을 때 데이터 일부만 학습시켜 활용하는 겁니다. 즉, 적은 데이터(스몰 데이터)로도 음성인식기를 학습할 수 있죠. 여기선 어떤 음성 데이터를 먼저 선별해서 음성인식기를 학습시킬 것인지가 핵심입니다. 그동안 음성인식 기술은 1세대(간단한 기계학습, 신호 분석), 2세대(딥러닝)로 발전해왔는데요. 이제는 액티브 러닝을 적용한 3세대로 나아가고 있죠.
최근 솔트룩스는 아틀라스랩스와 ‘음성인식 액티브 러닝’을 공동 연구, 개발했는데요. 이를 활용하면 전체 3분 1수준의 데이터로도 학습할 수 있죠. 음성인식 비용과 시간을 70% 이상 줄일 수 있고요. 음성인식 엔진의 음향모델도 최적화됩니다. 사실 기업에서 컨택센터(콜센터)를 운영하다보면 방대한 데이터가 발생하지만 음성인식 엔진이 인식하기 어려운 것도 있는데요. 액티브 러닝은 이런 고위험군 데이터를 선별해 학습에 반영할 수 있습니다. 이로써 컨택센터의 상담 카테고리가 늘거나 새로운 고객이 생길 때 사용할 수 있고요. 솔트룩스는 올해 중 이 기술을 음성인식 엔진에 적용, 차별화할 계획입니다.
2)음성합성

앞서 음성합성 개발방향은 개인화와 자연스러운 음성 구현을 지향하고 있다고 했는데요. 솔트룩스의 음성합성 엔진도 마찬가지입니다. 기본적으로 학습한 사람 목소리와 최대한 비슷한 어조와 억양을 구현하고요. 특정 개인의 목소리, 특정 도메인의 음성파일을 실시간 학습해서 개인화된 음성도 만들 수 있습니다.
솔트룩스의 음성합성 엔진의 강점 중 하나는 적은 데이터로 빠르게 목소리를 만들 수 있다는 점입니다. 비개발자에게 ‘전이학습’은 낯선 용어일텐데요. 이는 기존의 잘 훈련된 모델을 기반으로 새로운 화자의 음성 데이터를 추가로 학습하는 방법이죠. 솔트룩스 기술은 이를 활용해 음성합성을 하는데요. 30분 분량의 데이터로도 목소리를 만들 수 있습니다. 웹 관리도구를 통해 반나절에서 하루정도면 서비스할 수 있는 API 형태의 맞춤형 음성 모델을 배포할 수 있죠. 이렇게 하면 대규모 음성 전사 작업을 줄일 수 있는데요. 비용 절감도 꾀할 수 있습니다. 효율성도 담보하고요.
자연스러운 음성을 구현하는 것도 가능한데요. 솔트룩스는 구글 타코트론과 타코트론2 모델을 적용한 하이브리드 타코트론 딥러닝 모델을 활용해 딥러닝의 한계를 보완합니다. 이제는 딥러닝으로 음성합성을 하는 게 상당수죠. 그러나 품질과 성능에 아쉬움이 있습니다. 타코트론은 학습 과정에서 성능을 보장할 수 있고요. 타코트론2는 자연스러운 음성합성을 담보하죠. 솔트룩스에서는 두가지 모델을 혼용함으로써 합성음성의 음질과 억양을 자연스럽게 만듭니다.
한국어 음성합성 엔진의 한계도 보완하는데요. 대부분의 한국어 음성합성 엔진은 한글 이외 발음을 구현하기가 어렵습니다. 영어단어, 숫자, 단위 등이 그 예죠. 음성합성을 도입하려는 어떤 서비스가 있다고 가정합시다. 이 서비스에서 쓰는 상품명은 계속 늘어나고 있는데요. 실제 대다수가 영어나 숫자가 조합된 신조어라서 한국어 음성합성 엔진으로 읽기 힘듭니다. 영어를 모르는 사람이 이를 맞닥뜨렸을 때 입을 열 수 없는 상황과 같죠. 솔트룩스에서는 이런 비한글 발음(표기)도 자동으로 예측하고, 원활하게 변환하고요. 이로써 최대한 자연스럽게 발음할 수 있습니다.
AI ‘평양친구’는 어떻게 탄생했을까?

지난해 솔트룩스는 서울시, 통일부와 함께 세계 최초로 가상 평양사람을 만들었습니다. 바로 ‘내 생애 첫 평양친구’인데요. 여기에는 솔트룩스의 음성기술과 AI 기술을 적용했습니다. 평양친구는 북한에 대한 정보를 습득했고요. 평양 출신 북한이탈주민의 말투와 억양도 구현할 수 있죠. 예를 들어 “북한에도 지하철이 있어?”라고 물으면요. 평양친구는 이 목소리를 인식, “북한에도 지하철이 있습니다. 남쪽보다 더 일찍 개통했다고 해요”라고 평양 말투로 답하는 식입니다.
평양친구는 평양 소학교 5학년 김평린, 평양 김책 공대를 다니는 대학생 림한길, 평양 관광 안내원 리소원 이렇게 세명인데요. 김평린은 북한 학생들의 학교생활과 놀이문화, 음식문화를 주제로 대화할 수 있습니다. 림한길은 북한의 IT, 교육, 사회, 문화생활 등에 대해 이야기를 나눌 수 있고요. 리소원은 평양의 명소와 교통, 관광, 패션 등을 주제로 대화가 가능하죠.

솔트룩스의 기술은 어떻게 AI 평양친구에 구현됐을까요? 먼저 음성부터 살펴봅시다. 앞서 솔트룩스에는 대용량 다국어 음성 DB가 구축돼 있다고 했죠. 여기에는 북한 남녀의 발화 데이터도 있고요. 솔트룩스에서는 평양 출신 북한이탈주민을 섭외해 평양 말투와 억양을 전이 학습했습니다. 이를 토대로 한 딥러닝 기반 음성합성을 통해 평양친구의 목소리를 만들었죠.
사실 평양친구는 주어진 질문에 딱딱하게 답하는, 개성없는 AI는 아닙니다. 앞서 음성합성에도 개인화가 중요해지고 있다고 했죠. 평양친구는 여학생, 대학생, 안내원으로서 저마다 정체성을 가졌으며, 개인화됐습니다. 이는 평양친구의 목소리에서도 느낄 수 있죠. 솔트룩스는 감정표현이 가능한 음성합성을 통해 평양친구에 이를 구현합니다. 앞서 솔트룩스에서 적은 데이터로도 음성합성이 가능하다고 했는데요. 평양친구에서도 3시간 분량의 목소리로 품질높은 합성 음성을 만들었죠.
그렇다면 평양친구의 뇌에 지식은 어떻게 입력된 걸까요? 솔트룩스에서는 통일부 자료와 북한정보포털 학습, 북한학 연구교수들의 검수를 거쳐 북한 관련 지식을 구축했습니다. 이를 평양친구의 뇌에 탑재했죠. 특히 북한 관련 언어지식은 남북이 공동 편찬한 겨레말큰사전의 DB와 북한이탈주민들의 인터뷰 내용을 반영했고요. 평양친구는 친근하게 대화한다는 느낌이 드는 게 중요했습니다. 이에 대화 모델을 구축할 때 평양의 일상성을 담도록 신경 썼죠. 70년 분단의 간극을 AI로 메우는 의미있는 시도였습니다.
마무리하며

<출처=픽사베이>
지금까지 음성인식, 음성합성의 개념과 작동원리, 발전과정을 살펴보고요. 솔트룩스의 관련 기술은 어떻게 차별화됐는지 짚어봤습니다. 또 음성기술과 AI 기술이 가상의 평양친구를 구현한 과정도 들여다봤고요. 이번 글의 요점은 이렇게 정리할 수 있습니다.
1. 음성인식과 음성합성은 비대면 소통 시대에 활약이 돋보이는 기술입니다.
2. 모바일 시대의 도래, AI 기술과 클라우드의 발전, 스마트홈의 확산, 음성의 편의성 등은 음성 인터페이스 시대를 소환했습니다.
3. 음성인식은 컴퓨터가 사람의 음성언어를 해석해서 활자(단어 또는 문장)로 바꾸는 기술입니다. 이는 대화와 의미, 감정까지 파악할 정도고요. 인식률이 95%에 이르기도 합니다.
4. 음성합성은 인공적으로 사람의 목소리를 합성해 만드는 기술입니다. 이는 품이 많이 드는 기술이었지만 최근에는 딥러닝 기술에 힘입어 제작과정이 많이 효율화 됐죠.
5 .솔트룩스의 음성인식 엔진은 방대한 데이터에 기반하는데요. 데이터가 적어도 높은 인식률을 보이고 있습니다. 액티브 러닝을 적용한 3세대 음성인식 기술로 차별화를 꾀하고요.
6. 적은 데이터로 빠르게 목소리를 만드는 것도 솔트룩스 음성합성 엔진의 강점입니다. 하이브리드 타코트론 딥러닝 모델로 자연스러운 음성도 만들죠.
7. AI ‘평양친구’는 솔트룩스의 음성기술과 AI 기술로 구현한 세계 최초의 가상 평양사람입니다. 오늘날 음성합성 트렌드인 개인화를 잘 반영했고요. 친구 콘셉트로 북한의 생활상을 친근하게 전달해 AI로 정신적 분단 해소를 모색했습니다.
2. 모바일 시대의 도래, AI 기술과 클라우드의 발전, 스마트홈의 확산, 음성의 편의성 등은 음성 인터페이스 시대를 소환했습니다.
3. 음성인식은 컴퓨터가 사람의 음성언어를 해석해서 활자(단어 또는 문장)로 바꾸는 기술입니다. 이는 대화와 의미, 감정까지 파악할 정도고요. 인식률이 95%에 이르기도 합니다.
4. 음성합성은 인공적으로 사람의 목소리를 합성해 만드는 기술입니다. 이는 품이 많이 드는 기술이었지만 최근에는 딥러닝 기술에 힘입어 제작과정이 많이 효율화 됐죠.
5 .솔트룩스의 음성인식 엔진은 방대한 데이터에 기반하는데요. 데이터가 적어도 높은 인식률을 보이고 있습니다. 액티브 러닝을 적용한 3세대 음성인식 기술로 차별화를 꾀하고요.
6. 적은 데이터로 빠르게 목소리를 만드는 것도 솔트룩스 음성합성 엔진의 강점입니다. 하이브리드 타코트론 딥러닝 모델로 자연스러운 음성도 만들죠.
7. AI ‘평양친구’는 솔트룩스의 음성기술과 AI 기술로 구현한 세계 최초의 가상 평양사람입니다. 오늘날 음성합성 트렌드인 개인화를 잘 반영했고요. 친구 콘셉트로 북한의 생활상을 친근하게 전달해 AI로 정신적 분단 해소를 모색했습니다.
<참고자료>
1.정훈규, ‘'AI 받아쓰기' 다글로, 출시 1주년 기념 이벤트’, 서울경제TV, 2020.4.10, www.sentv.co.kr/news/view/571400
2.김원, ‘AI가 회의록도 정리해준다…네이버, 새 음성인식 기술 공개’, 중앙일보, 2020.4.13, news.joins.com/article/23753349
3.김윤진, ‘음성 인식 AI ‘공간 파괴’… 아파트 넘어 호텔-車로 서비스 확대’, 동아일보, 2019.11.27, www.donga.com/news/article/all/20191126/98549706/1
4.박정엽, ’음성 인터페이스 시대-음성이 자극하는 콘텐츠 소비’, 미래에셋대우, 2017.11.13, www.miraeassetdaewoo.com/bbs/maildownload/2017111317422847_154
5.김지나, ‘"AI 음성인식 대중화단계로"…20대, 10명 중 4명 사용’, 뉴스핌, 2020.2.26, www.newspim.com/news/view/20200226000482
6.’문화기술(CT) 심층 리포트’, 한국콘텐츠진흥원, 2011.12.7, www.kocca.kr/cop/bbs/view/B0000144/1756144.do?menuNo=
7.’음성인식 기술 시장’, 연구개발특구진흥재단, 2017.9, rnd.compa.re.kr/fileDownload.do?filePath=techMarket&fileName=techMarket_Report_160.pdf
8.전효진, ‘'LG 시그니처 와인셀러', 세계적 와인평론가가 알린다’, 조선비즈, 2020.3.22, biz.chosun.com/site/data/html_dir/2020/03/22/2020032200291.html
9.’Amazon Transcribe Medical’, AWS, 2020.4.17 접속, aws.amazon.com/ko/transcribe/medical/
10.전창의, 이효정, 김기범, ‘음성 AI 시장의 동향과 비즈니스 기회’, 삼정KPMG, 2020.4, assets.kpmg/content/dam/kpmg/kr/pdf/2020/kr-im-126-voice-ai-20200414.pdf
11.이상오, ‘AI 음성인식, 감정까지 잡아낸다고?’, 공학저널, 2020.4.14, www.engjournal.co.kr/news/articleView.html?idxno=683
12.Brian Dumaine, ’[포춘US]아마존·애플·구글의 음성인식 기술 경쟁’, 포춘, 2018.12.4, www.fortunekorea.co.kr/news/articleView.html?idxno=10781
13.이대호, ‘‘보고 듣는’ 차세대 음성인식은 무엇?’, 디지털데일리, 2019.12.3, m.ddaily.co.kr/m/m_article/?no=189096
14.김원, ’AI가 회의록도 정리해준다…네이버, 새 음성인식 기술 공개’, 중앙일보, 2020.4.13, news.joins.com/article/23753349
15.’음성합성’, 2020.4.17 접속, www.aistudy.co.kr/linguistics/speech/synthesis_oh.htm
16.이봉준, ‘누구나 만드는 내 목소리 합성기(부제: 그게 정말 되나요?)’, 네이버, 2018.10.12, www.slideshare.net/deview/222-119159969
17.조훈영, ‘게임과 AI #5 음성 합성 기술’, 엔씨소프트, 2017.12.15, blog.ncsoft.com/%ea%b2%8c%ec%9e%84%ea%b3%bc-ai-5-%ec%9d%8c%ec%84%b1-%ed%95%a9%ec%84%b1-%ea%b8%b0%ec%88%a0/
18.이준모, 이경훈, 김영익, 조훈영, ‘End-to-End 개인화 음성합성 기술 #1’, 엔씨소프트, 2019.7.17, blog.ncsoft.com/end-to-end-speech-synthesis-1/
19.이영근, ‘감정연기와 외국어가 가능한 인공지능 성우’, 네이버 데뷰 2019, 2019.10.28, deview.kr/data/deview/2019/presentation/[112]%E1%84%80%E1%85%A1%E1%86%B7%E1%84%8C%E1%85%A5%E1%86%BC%E1%84%8B%E1%85%A7%E1%86%AB%E1%84%80%E1%85%B5%E1%84%8B%E1%85%AA%20%E1%84%8B%E1%85%AC%E1%84%80%E1%85%AE%E1%86%A8%E1%84%8B%E1%85%A5%E1%84%80%E1%85%A1%20%E1%84%80%E1%85%A1%E1%84%82%E1%85%B3%E1%86%BC%E1%84%92%E1%85%A1%E1%86%AB%20%E1%84%8B%E1%85%B5%E1%86%AB%E1%84%80%E1%85%A9%E1%86%BC%E1%84%8C%E1%85%B5%E1%84%82%E1%85%B3%E1%86%BC%20%E1%84%89%E1%85%A5%E1%86%BC%E1%84%8B%E1%85%AE__.pdf
20.이대호, ‘‘40시간→40분’ 음성합성 혁신…네이버 ‘클로바더빙’ 내놨다’, 디지털데일리, 2020.2.10, m.ddaily.co.kr/m/m_article/?no=191650
21.김시소, ‘"속보 읽는 AI 아나운서 " 카카오 3배 빠른 딥러닝 TTS 상용화’, 전자신문, 2019.11.6, m.etnews.com/20191106000272
▶음성인식 엔진 자세히 보기
▶음성합성 엔진 자세히 보기
▶블로그 원문 보기: http://blog.saltlux.com/221920562327
