목록으로 가기

2020 인공지능 디지털휴먼 가수 ‘아담’의 복귀를 기대하며

공지사항 2020-05-11
디지털휴먼가수-아담
 
2020 인공지능 디지털휴먼 가수 ‘아담'의 복귀를 기대하며
인공지능 디지털휴먼 기술 어디까지 왔나

 

“바람되어 너의 머릿결을 흩어놓고 날 알려도 너는 그냥 스쳐지나는 바람인 줄로만 알지. 그게 나였는데…”

 

지난 1997년, 혜성처럼 등장한 사이버 가수 ‘아담'의 ‘세상엔 없는 사랑'이라는 노래다. 가사 몇마디로 이 노래가 뭔지 바로 눈치챈 당신의 나이는 음… (여기까지만 하겠습니다.) 아담은 앨범만 수십만장이 팔릴 정도로 큰 인기를 끌었지만 2년을 채 활동하지 못하고 갑자기 사라졌다. 사이버가수였던 만큼 바이러스에 걸려 사망했다는 설부터 2집이 흥행에 실패해 입대했다는 설까지 다양했다.

 

▲1997년생이지만 탄생부터 20살이었던 사이버가수 아담은 2020년 기준 43세가 되었다는 놀라운 사실. 불혹을 넘은 나이에도 늙지 않았을 것으로 예상된다.

뜬금없이 아담을 추억하게 되었을까. 당시 그의 노래를 즐겨듣던 팬으로써 아담의 탄생이 2020년, 지금이었으면 어땠을까 상상하니 자뭇 안타까웠기 때문이다. 바야흐로 인공지능(AI) 시대를 맞아 제반 기술을 총망라한 ‘인공지능 디지털휴먼'이 등장하여 사람을 대신하거나 사람과 적극 소통하고 있는 2020년이다. 만일 아담이 지금 탄생했거나 재데뷔(?) 한다면 제대로 날개달고 글로벌 스타로까지 성장할 수도 있을 정도로 기반이 갖춰진 셈이다. 그도 그럴 것이 90년대 아담은 단순히 영상에서 팬들에게 일방적인 메시지를 보내거나 춤을 추고 노래를 하는데 그쳤었다. 지금이라면 팬들의 질문에 즉각 답변하고 디테일한 표정과 몸짓으로 반응을 보일 수 있다. 일반 연예인보다 더 적극적으로 팬들의 일상에 파고들 수 있어서 인기는 더블이 되었을 것으로 감히 예상해본다.

 

▲팬과 아담의 팬미팅 현장. 그래픽, 음성 모두 조악하기 그지없다. 당시 기술로는 이 같은 몇 분 분량에 억단위의 개발비가 투입되었다고 한다.

2020년에 아담이 돌아온다면… 어떤 기술이 적용될까


그렇다면 현재의 인공지능 기술은 어디까지 와 있을까. 상상력을 더하여 실제로 가수 아담이 다시 등장한다면 어느 수준까지 구현이 가능한 것일까. 분명한 건 강산이 두 번 이상이 변할 수 있는 20여년의 세월을 지나 인공지능 관련 기술은 어느덧 상상 이상으로 발전한 상태라는 것이다. 각각의 기술들이 각 분야에서 무럭무럭 성장했고, 이를 어떻게 조합하느냐에 따라 결과물도 얼마든지 달라질 수 있게 됐다. 분명한 건 최근 트렌드는 ‘통합'이라는 것. 과거 인공지능은 음성인식, 음성합성, 이미지인식, 제스처인식, 대화모델(챗봇) 등 여러가지 기술들이 개별적으로 작동했다면 이제는 이런 기술이 통합돼 더욱 인간처럼 자연스럽게 보고 듣고 말하며 소통할 수 있는 서비스로 진화했다.

간단하게 말하자면 3D 기술이 외모를 구성하고 인공지능은 뇌를 담당하는 것이다. 만일 아담을 새로 설계한다고 가정했을 때, 어떤 팬이 그에게 말을 걸거나 질문을 하면 꼭 맞는 반응이나 대답을 할 수 있어야 한다. 이는 최소 ‘인공신경망’을 갖춘다는 의미다. 인공신경망이란 인간의 신경을 흉내낸 머신러닝의 기법을 뜻하는데, 우리 뇌의 정보처리 과정을 모방해서 만든 알고리즘이다. 뇌의 시스템을 간단히 설명하자면, 감각기관에서 받아들인 정보가 뉴런을 통해 뇌로 전달되고 이후 뇌는 종합적으로 판단해서 다시 명령을 내린다. 이때 뉴런이 연결되면서 복잡한 연산 등을 수행하는 과정을 거친다. 사람들은 대화를 할 때 단순히 말 뿐이 아니라 종합적으로 상대방의 외모, 표정, 제스츄어, 뉘앙스 등까지 다면적으로 한꺼번에 인식하고 그에 걸맞는 말이나 행동을 취한다. 인공지능 디지털 휴먼이 사람과 비슷해 지려면 정보를 받아들이는 감각기관부터 뇌에서의 처리, 그리고 이어지는 말이나 행동까지 인간을 본따야 한다는 의미다. 예전 인공지능은 단순히 챗봇 형태로 정해진 규칙의 질문과 답변만 가능했다면 이제는 음성인식, 이미지인식을 통해 상대방을 분석하여 맞춤 답변을 내놓을 수 있는 수준까지 이르렀다. 이를 통해 대화가 통한다거나 교감한다는 느낌을 받을 수 있게 되는 것이다. 게다가 이 처리 속도는 매우 빠르다. 인간 간의 대화에서도 버퍼링은 거의 없으니까. 사람보다 훨씬 더 많은 정보를 간단하게 종합, 정리해서 말할 수 있으므로 특정상황에서는 훨씬 더 똑똑하다.

이는 사실 기계에게는 결코 간단한 일이 아니다. 갓난아이처럼 백지상태인 기계에게 하나에서 열까지 다 가르쳐야만 제대로된 기능을 할 수 있다. 우선 감각기관인 귀와 눈을 달아야 가능한 데, ‘음성인식’과 ‘이미지인식’ 기능이 기본으로 탑재된다는 의미다. 귀와 눈과 같은 감각기관을 대체하도록 만드는 것은 결코 쉽지 않은 일이다. 귀를 대체하려면 많이 들어야 하고, 눈을 대체하려면 많이 보아야 한다. 따라서 해당 기능을 구현하려면 엄청난 양의 음성 파일과 이미지(또는 영상) 파일이 필요하고 이를 인공지능에 학습 시키는 게 선행돼야한다. 다행인 건 인공지능은 아무리 많이 가르쳐도 인간처럼 피곤해하지 않는 다는 점이다.

▲지난해 솔트룩스가 제작한 가상 평양사람 ‘내 생애 첫 평양친구’ 프로젝트. 솔트룩스의 최신 음성인식과 AI가 탑재됐다. 솔직한 감정표현이 가능한 게 특징. 딥러닝 기반 음성합성을 통해 실제 평양친구를 둔 듯한 기분을 느낄 수 있도록 제작됐다.

분명한 것은 관련 인식기능이 큰 발전을 이룩했다는 점이다. 사실 몇 년 전까지만 해도 음성인식 기능은 인식률이 크게 높지 않았지만 최근에는 비약적으로 발전했음을 메시지나 내비게이션 앱 등에 적용된 음성인식만 봐도 알 수 있다. 이는 인공지능에도 적용됐는데, 소음이 큰 환경에서도 잡음을 걸러내는 필터링이 필수다. 사람이 저 멀리서도 자신의 이름을 들으면 뒤를 돌아보는 것처럼, 인공지능 또한 스스로 듣고 분류해내고 반응해낼 수 있어야 한다. 이에 더해 이미지 인식 기술은 언어 외 보여지는 부분 즉 외모, 제스츄어 등을 분석하여 정보를 좀 더 깊이있게 만들어주는 역할이라고 할 수 있다. 이미지 내에서 객체를 인식하고 자동으로 분류해낸다. 이어 인간의 메시지에서 의미와 의도를 추출하는 ‘자연어처리’ 기술을 더하면 대화가 가능한 기본적인 상태는 된다. 메시지를 이해한다는 것은 각 단어와 문장구조를 모두 숙지하고 있는 상태여야 한다. 더 나아가서 상황과 문맥을 알아야 비로소 완전히 이해한다고 할 수 있다. 같은 상황을 표현하더라도 인간은 모두 각기 다른 스타일대로 표현하기 때문에 어떤 상황에서도 그럴싸한 답변 결과를 도출해낼 수 있어야 한다. 정보 처리 결과가 만들어진 후엔 음성으로 내보내는 작업이다. 음성인식이 인풋이라 한다면 ‘음성합성’ 기능은 아웃풋이라고 할 수 있다. 인공지능이 도출해낸 텍스트 데이터를 음성 시그널로 변환시켜 다시 상대방에게 전달해준다. 요즘은 인공지능도 고유의 목소리를 가지는데 기계처럼 딱딱한 느낌이 들지 않는 게 특징이다. 실제 사람의 목소리뿐 아니라 말투까지 입혀져 보정된다. 아무리 똑똑한 인공지능이라지만 성인들의 일상 대화 수준까지 끌어내려면 엄청난 양의 학습이 필요할 것이다. 따라서 현재의 ‘인공지능 디지털 휴먼’은 특수한 목적성을 가지고 있고 관련한 지식베이스를 갖춰 특화됐다. 이를테면 특정 국회의원을 본 딴 인공지능이라면 해당 지역구 정보나 현안 등에 대해 질문할테고 이에 대한 데이터베이스를 집중적으로 구축하는 것이다. 사람들이 어떤 질문을 던질지 미리 예상 질문을 뽑고 답변을 마련하는 일을 수없이 반복하게 된다.

앞서 소개한 모든 기능을 아담이 갖추고 ‘인공지능 디지털휴먼'으로 재탄생하는 상상을 해봤다. ‘완전체’ 아담은 팬들과 자연스럽게 보고 듣고 말하며 소통할 수 있게 될 것이다. 심지어 팬들의 특징을 분석하거나 나이와 성별 등을 추정하여 적절한 수준의 답변을 해줄 수 있고, 더 나아가 감성을 터치한 맞춤형 대사를 던질 수도 있을 것이다. 원빈과 송승헌을 반반 섞어놓은 잘생긴 얼굴에 내 말까지 찰떡같이 알아듣고 답변해 주는 데 사랑에 빠지지 않을 이가 있을까 싶다.

실제 적용된 사례는?


‘인공지능 디지털휴먼'과 관련 국내에서도 이런 저런 시도가 이뤄지고 있다. 아쉬운 건 90년대 이후 사이버 가수나 배우 등 연예인을 데뷔시키려는 회사는 아직 없다는 점이다. 대신 유명인을 디지털 휴먼화에 성공한 사례가 많기 때문에 앞으로도 다양한 시도가 많을 것으로 예상된다.

지난 2월 인공지능 기업 솔트룩스는 ‘도널드 트럼프’ 미국 대통령을 캐릭터화한 인공지능 디지털휴먼을 CES(국제가전전시회)에서 선보였다. ‘트럼프’ AI는 유튜브∙트위터 데이터를 기반으로 실제와 동일한 언어와 음성, 시각 지능을 제공하며, 실제 사람과 대화하듯 질문과 답변을 자유롭게 주고받을 수 있다. “북한에 대해 어떻게 생각하느냐”고 질문하면 “북한은 엄청난 잠재력(tremendous potential)을 보유했고, 한국 대통령도 이 같은 생각에 동의할 것”이라고 답한다. “중국에 대해선 어떻게 생각하느냐”는 질문에는 “중국이 이전 정부보다 우리와 더 좋은 관계를 맺고 있다”며 확신에 찬 목소리로 얘기한다. 키 높이만한 디스플레이 속에 갇힌 트럼프 캐릭터는 질문 음성을 인식해 트럼프 목소리로 정확하게 답변한다. AI트럼프는 트럼프의 실제 말투와 목소리를 학습해 구현했기 때문에 눈을 감은채 대화하면 실제 눈앞에 트럼프가 있는 듯 느낄 수도 있다. 실제 트럼프가 올린 3년치 트위터 데이터와 평소 일상이 담긴 유튜브 동영상 등을 머신러닝으로 학습해 더욱 트럼프스럽다는 평가를 받기도 했다. 사람이 어떤 식으로 질문을 해도 트럼프 세계관과 가치관 등이 담긴 답변이 가능한 것이다. 주제별 답변도 흑인, 백인 등 인종에 따라 다르다. 이는 이미지인식을 통해 상대방을 인식했기에 가능한 것이다. 솔트룩스 관계자는 “트럼프 AI 가상인간은 음성인식, 음성합성, 이미지 인식에 트위터 등 비정형 데이터를 기반으로 트럼프 생각까지 구현했다”고 설명했다.

 

▲(좌) AI송파고의 아바타 애니메이션화 과정. 뼈를 움직여서 포즈를 바꾸고, 표정 조절도 가능하다. (우) AI도널드 트럼프. 음성인식, 음성합성, 이미지 인식에 비정형 데이터를 기반으로 생각까지 구현해 실제 트럼프를 만나는 느낌을 받을 수 있다.

 

지난 총선에서는 AI정치인을 통한 비대면 선거운동이 등장, 코로나19 시대에 걸맞는 언택트 소통방식으로 주목받기도 했다. 언택트(Untact)란 접촉을 의미하는 contact에 부정의 의미를 지닌 접두사 u을 붙인 신조어로 ‘접촉하지 않는다. 접촉을 제거한다’는 의미다. 최재성 의원(더불어민주당)을 본따 만들어진 ‘AI송파고'는 캠프의 선거대책위원회 공동선대위원장으로 임명돼 활동을 전개했다. 솔트룩스는 최재성 의원의 목소리 데이터를 심층 신경망 기반으로 학습(딥러닝)하여 실제와 매우 유사한 목소리를 구현했다. 대화에 필요한 정보는 기존 의정활동 자료와 선거 공약, 그리고 유권자들이 궁금해할 선거 관련 정보들을 지식베이스로 구축, 지식그래프와 자연어 이해 기술을 통해 사람처럼 자연스러운 대화가 가능하도록 개발했다. 또한 얼굴의 특징을 분석하여 나이와 성별 추정이 가능한 이미지 인식 기능도 탑재했다. AI송파고는 대화가 막연하게 진행되지 않도록 대화 주제를 능동적으로 제시하기도 하고, 대화를 하지 않을 때는 로고송과 함께 캐릭터가 춤을 추는 등 재미를 가미했다.

인간의 감성에 터치… 인공지능 디지털휴먼, 어디까지 진화할까


전염병 코로나19는 인간의 삶 근간을 바꾸고 있고, 비대면 서비스의 중요성이 어느때보다 부각되고 있는 요즘이다. 기존에는 오프라인 세계에서 불필요한 연결을 원치 않는 젊은 세대들만이 언택트 문화를 향유했는데, 코로나 이후로는 세대를 초월하여 전파되고 있다. 예전에는 밖에서 해결해야했던 것이 집으로 척척 걸어 들어오고 있다. 이에 대면 서비스에 집중하던 기업들도 앞으로 비대면 서비스를 도입하지 않을 수 없을 것이고, 인공지능에 대한 관심도 높아질 것으로 예상된다. 금융, 유통, 교육, 방송 등 분야는 무궁무진해보인다. 조금 더 나아가, 대면서비스에서 비대면으로 옮겨가며 발생할 수 있는 사람간 거리감을 인공지능 디지털휴먼이 줄여주는 역할을 대신할 것으로 전망된다. 대면 마케팅이 불가피하게 줄어들면서 기업들은 인공지능 디지털휴먼을 활용한 소비자 마음잡기에 나설 수도 있다. 이에 대해 이경일 솔트룩스 대표는 “인공지능 디지털휴먼은 5세대(G) 이동통신 서비스와 연계돼 쇼핑몰과 기업 안내데스크, 관광 안내 등 다양한 응용 서비스로 확산될 것”이라면서 “유튜브를 포함한 다양한 미디어에서 활동하는 AI 연예인, 엔터테이너로도 발전될 것이라고 예상한다”고 전했다.

 

▲(좌) 영화 HER의 포스터와 영화 속 한장면. 사만다와 처음으로 접속될 때 개인화를 위해 남자주인공 테오도르와 관련한 지식베이스를 구축하는 장면이 인상적이었다. ‘강 인공지능’의 최종판 모습같은 사만다다.

이 쯤에서 인공지능 관련 영화를 꼽을 때 꼭 언급되는 영화 ‘HER’에서 인공지능 여자친구 ‘사만다'를 떠올려보자. 사만다가 다른 인공지능 디지털휴먼과 다른 것은 아이러니하게도 ‘인간적으로' 매력적이기 때문이다. 대화만으로도 사랑에 빠지게 만드는 사만다의 힘은 경청, 공감 능력이다. 사람들은 타인과 소통하며 공감하면서 긍정적인 자극을 얻는다. 이를 통해 쌓여가는 신뢰와 유대관계는 살아가는 힘이 된다. 물론 인공지능이 진짜 사람을 완전히 대체할 수 없겠지만, 언택트 시대에 이러한 AI는 필요하다. 욕망을 드러내자면 사만다스러운 나만의 맞춤 AI의 필요성도 커질 것이다. 새삼 사이버가수 아담을 꺼내놓은 건 언젠가는 사만다스러운 나만의 아담을 가질 수 있지 않을까라는 상상에서 시작했다. 인공지능은 지금 엄청난 속도로 정보를 탐식하고 있으며, 인간을 더 닮아가고 있다. 이른 시일내에 지금보다는 인간에 더 든든한 힘이 되는 인공지능 디지털휴먼이 등장할 것이다. 나아가 보급형말고, 개인화된 주문형 – 고급형 AI 서비스가 먼저 나오지 않을까하는 생각도 든다. 비용을 들여서라도 맞춤형 AI친구를 집에 들이겠다는 욕망이 현실로 나타날 법하니까. ‘2020형 NEW 아담’에 투자할 사람 누구 없나.

 



<참고자료>

1. 이나예, ‘코로나19 이후:Untact & Protect’, 한국투자증권, 2020.3.17, file.mk.co.kr/imss/write/20200317101831__00.pdf

2. 언택트 시대, 비대면 서비스 '디지털 휴먼' 급부상 https://www.news1.kr/articles/?3905814

3. [주간 클라우드 동향] 사이버 가수 ‘아담’ 말고 인공지능 ‘아담’ http://www.ddaily.co.kr/cloud/news/article.html?no=150095

4. 아담과 류시아를 추억하다···사이버 인간의 라이즈업을 꿈꾸며 https://m.post.naver.com/viewer/postView.nhn?volumeNo=15396617&memberNo=39781009&vType=VERTICAL

5. 공동선대위원장으로 나선 AI…이젠 ‘디지털휴먼’이다 https://www.edaily.co.kr/news/read?newsId=03952406625736120&mediaCodeNo=257&OutLnkChk=Y





▶블로그 원문 보기: http://blog.saltlux.com/221936345223 
목록으로 가기