※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1859호(2018. 8. 15. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 ‘콜센터 AI’ 서비스 발표, 상담원과 AI의 협업 솔루션 강조.pdf



[ 요 약 ]


올해 초 사람과 흡사한 가상 비서 듀플렉스를 공개했던 구글이 최근 이 기술을 기업 콜센터에 적용한 컨택트 센터 AI' 서비스를 발표하였음. 데모 영상에서 AI는 대화를 통해 고객의 전화 의도를 파악한 후 필요한 절차를 진행하고 고객이 원하면 상담원과 연결해 주는 기능을 선보였음. 구글은 콜센터 AI 서비스가 상담원의 일자리를 없애는 것이 아니라 업무를 지원하는 협업 솔루션임을 강조하고 있지만 실제 그렇게 될 지는 지켜볼 필요가 있음



[ 본 문 ]


구글의 과학연구 책임자 페이페이 리는 구글 클라우드 넥스트(Google Cloud Next)’ 행사의 기조연설에 등단해 콜센터 시스템에 인공지능(AI)을 통합한 서비스를 발표하였음


서비스 명칭은컨택트 센터 AI(컨택트 센터 AI)’로 콜센터 상담원(오퍼레이터)들의 업무를 AI로 대행해 주는 기업용 솔루션인데, 고객의 질문이 간단한 것이라면 질문에 직접 대답하고 사람의 대응이 필요할 경우 문의자를 적합한 직원에게 연결해 줌


<자료> Google

[그림 1] 컨택트 센터 AI 발표


페이페이 리(Fei-Fei Li)는 날마다 콜센터에서 벌어지는 어려움에 대해 연구하면서 단순한 거래나 정보성 문의가 상당히 많다는 것을 발견했으며, AI를 통해 고객과 대응 직원의 경험을 동시에 향상하는 방법을 고민하게 되었다고 개발 배경을 설명


단순 상담이 과도해지면서 콜센터 직원들을 반복 업무와 빠른 처리에 대한 압박 증가로 복잡한 문제 해결에 필요한 시간이 줄어드는 어려움을 느끼고 있고, 고객 역시 직관적이지 않은 ARS 메뉴, 상담 대기 시간 증가로 사용자 경험이 훼손되고 있다는 것


컨택트 센터 AI는 기존의 트리형 전화 시스템을 상담원이 전화를 받기 전에 가상 AI 직원이 질문에 답하는 시스템으로 바꾸게 되는데, 구글 컨택트 센터 AI가 맥락 정보를 제공하기 때문에 상담원이 전화를 넘겨받은 후에는 같은 질문을 반복할 필요가 없다고 함


컨택트 센터 AI 서비스의 초기 베타 테스트에 참여하고 있는 곳은 이베이(eBay)’인데, 이베이는 고객과 자연스럽게 대화하는 시스템으로 기존 콜센터의 문제를 해결하고자 함


이베이는 그 동안 구글 클라우드, 이베이의 컨택트 센터 기술 공급업체인 제네시스(Genesys)와 함께 트리형 전화 교환 시스템을 없애고 자연어 기반 봇을 활용하는 개발 작업에 집중해왔다고 함


이베이의 고객 서비스 부문 부사장인 댄 레이바(Dan Leiva)는 구글과 진행하는 시범 프로젝트의 목표는 콜센터가 안고 있는 3가지 문제를 해결하는 것이라 밝혔음


첫 번째 문제는 전화하는 고객이 짜증나는 트리형 시스템을 돌아다니면서 끝없는 질문에 응답해서야 겨우 기업이 고객의 전화 목적을 파악하게 되는 현상으로, 이 때문에 대부분의 문의 전화는 중도에 상담원 직접 통화 요청으로 이어지게 됨


두 번째 문제는 반복적으로 똑같은 정보를 제공하는 현상으로, 마침내 상담원과 통화하게 되더라도 문의 시간의 절반은 이미 앞에서 입력하고 대답했던 정보를 다시 제공하는 데 쓰이는 경우가 많음


마지막 문제는 고객 문의를 해결하기 위해 상담원이 접근할 수 있는 정보에 한계가 있다는 점으로, 어렵게 상담원과 연결되어도 결국 고객은 문제를 해결하지 못하게 됨


이베이에 콜센터 시스템을 공급해 오던 제네시스 역시 /아니오로 답하는 패러다임이 계속 존재해야 할 이유를 알기 어렵다고 밝히며, 전화한 고객과 자연어로 대화하는 시스템을 만들고 싶어 이번 시범 프로젝트에 참여하게 되었다고 설명


제네시스는 이미 예측적 전화 라우팅 시스템을 개발한 바 있으며, 이번 프로젝트를 계기로 구글의 AI 솔루션과 매끄럽게 연동하는 방안을 모색하겠다는 입장


기조연설에서는 컨택트 센터 AI의 데모 영상이 소개되었는데, 소비자가 이베이에서 구매한 상품을 반품하기 위해 콜센터에 전화하는 상황을 설정한 데모임


데모 영상에서는 소비자가 콜센터에 전화하면 AI로 연결되며, AI는 인간처럼 자연스럽게 대화하며 소비자의 불만을 듣고 그 내용을 이해해 업무 처리를 마무리하였음


<자료> Genesys

[동영상] 콜센터 AI와 통화하는 반품 고객


구체적으로 살펴보면, 소비자가 테니스 운동화를 사고 싶었지만 잘못 구매했기 때문에 이를 반품 싶다고 하자, AI는 대화를 통해 소비자의 의도를 이해하고 제품 반품 프로세스를 실행하였음


이어 AI는 소비자가 테니스 운동화를 사고 싶다는 의도가 있음을 파악했기 때문에, 전화를 패션 담당 상담원에게 돌려주었고, 소비자는 상담원과 대화를 통해 원래 사고 싶었던 운동화를 구매할 수 있었음


이 데모 영상은 지능형 AI가 사람의 역할을 대신할 수 있다는 것 외에도, 상담원과 협조하여 콜센터 작업을 개선하려는 의도가 구현되어 있음을 보여주고 있음


◾ 컨택트 센터 AI에 통합된 인공지능 대화봇은 올해 초 ‘구글 I/O’에서 소개되어 논란을 불러 일으켰던 인공지능 가상 비서 ‘듀플렉스(Duplex)’와 유사한 기술이 적용되어 있음


올해 초 구글의 CEO 순다 피차이가 듀플렉스를 시연할 때 너무 사람과 똑같아. AI가 스스로 사람이 아니라 채팅봇임을 밝히지 않으면 대화 상대방이 사람으로 착각할 위험이 있다는 비난을 받는 등 한동안 논쟁의 벌어지기도 하였음


이런 논란을 의식해서인지, 컨텍트 센터 AI는 처음부터 자신이 컴퓨터임을 밝히고 인간의 톤으로 소비자와 대화를 시작하고 있음


거의 모든 콜센터에서는 트리 형식의 대화 모델로 질문하고 응답하면서 안내가 진행되지만, 컨택트 센터 AI는 개방 형식의 템플릿이 없는 대화 모델로 소비자와 대화하며 요구사항을 확인하고 소비자의 발언에 임기응변으로 대응하는 모습을 보여주었음


소비자: Unfortunately, they do not fit. So I need to return them.
        (
유감스럽게도 신발이 맞지 않네요. 반품해야겠어요.)


AI : I can help you that. I am starting a return for you. You will be receiving an email with the details of your return. (제가 도와드릴게요. 지금 반품 절차를 시작하고 있어요. 반품과 관련한 상세한 내용을 담은 메일을 받게 될 거에요)


AI : One more thing. Would you like me to connect to an eBay fashion expert to find the right shoes? (하나 더 말씀드릴 게 있는데요. 꼭 맞는 신발을 찾기 위해 이베이의 패션 전문가와 연결시켜 드려도 괜찮을까요?)

  

컨택트 센터의 AI는 소비자의 의도를 파악하여 대응하는 동시에 대화 정보를 기록하며, 고객의 요구와 이어지는 파생 요구를 추론해 적합한 직원에게 연결하는 기능도 수행함


데모 영상에서는 AI가 소비자에게 패션 담당 상담원과 통화해 보면 어떠냐는 제안을 하고, 고객이 응낙하면 전문 상담원에게 연결해 주는데, 연결이 되고 나면 상담원의 화면에 소비자와 AI의 대화가 표시되어 상담원은 지금까지의 경위를 바로 이해할 수 있음


AI와 상담원의 협업은 여기서 끝나는 것이 아닌데, 상담원이 소비자와 대화를 진행하면 AI는 대화를 실시간으로 분석해 소비자의 의도를 파악하고 최적의 상품을 상담원에게 추천하는 기능까지 수행함


데모 영상에서 AI는 하드 코트 테니스화를 추천했고, 상담원이 이를 소비자에게 권하자 소비자가 수락해 구입함으로써 일련의 트랜잭션이 종료되는 모습을 보여주었음


<자료> Google

[그림 2상담원에게 제품을 추천하는 AI


◾ 이러한 컨택트 센터 AI 서비스는 ‘구글 클라우드’의 콜센터 시스템에서 실행되며, 클라우드에는 두 가지 유형의 AI가 순차적으로 작동하게 됨


이베이가 시험적으로 운영 중인 서비스는 구글 클라우드에서 실행되는 제너시스의 콜센터 시스템을 통해 구현되는데, ‘인공지능 가상 에이전트(AI Virtual Agent)’가 소비자와 자연어로 대화하며 클레임을 처리하고 상담원에게 전화를 돌려주는 기능을 함


전화를 돌려받은 상담원이 소비자와 통화할 때는 또 다른 인공지능인 에이전트 어시스트(Agent Assist)’가 대화를 실시간으로 분석하고 추천 제품을 화면에 디스플레이 해 주는 기능을 수행함


컨택트 센터 AI는 기존 콜센터 시스템과 통합하여 이용되는데, AI가 쌍방향 음성 대응 기능(Interactive Voice Response)을 주관하여 콜센터의 두뇌 역할을 하게 됨


<자료> Google

[그림 3컨택트 센터 AI 서비스 구성도


기조연설의 데모에서는 제너시스의 솔루션이 사용되었지만, 이 밖에도 미텔(Mitel), 시스코Cisco), 트윌리오(Twilio) 등 주요 콜센터 시스템에서도 컨택트 센터 AI를 연계하여 사용할 수 있다고 함


각 솔루션의 구글 AI 지원 정도에 따라 서비스 연계 품질이 달라질 수 있겠지만, 기업들로서는 기존 콜센터 시스템을 전면 교체하지 않고도 컨택트 센터 AI를 통해 콜센터 상담원들의 업무를 효율화하는 동시에 고객의 만족도를 높일 수 있다는 것임


컨택트 센터 AI 서비스는 아직 안정화 단계는 아니지만, 사용을 희망하는 기업들은 구글 클라우드에서 서비스에 가입해 이용할 수 있음


컨택트 센터 AI 솔루션은 작년 11월에 공개된 대화형 에이전트 개발 스위트 ‘ DEE(Dialogflow Enterprise Edition)’를 기반으로 하며, 다이얼로그플로우 폰 게이트웨이를 활용해 전화 통신 네트워크와 통합이 가능한 딥마인드의 웨이브넷으로 강화되었음


웨이브넷(WaveNet)은 알파고를 개발한 구글의 자회사 딥마인드가 개발해 2016년에 발표한 오디오 원음 심층 생성 모델임


웨이브넷은 인간의 음성을 모방해 기계 음성을 생성해 주는데, 딥마인드는 기존 텍스트--스피치(TTS) 시스템들보다 더 자연스러운 기계음 생성을 목표로, 인간 음성과 기계음의 차이를 50% 이상 줄이는 기능을 연구 중이라고 함


◾ 컨택트 센터 AI는 듀플렉스와 유사한 기술이기는 하지만 기술의 스택과 목표는 듀플렉스와 다르며, AI와 사람의 협력을 강조하는 기업용 솔루션 시장을 타게팅하고 있음


구글이 올 초 대화형 AI 듀플렉스를 공개했을 때, 이용자를 대신해 레스토랑의 점원과 대화하며 테이블을 예약하는 시연 영상에 환호를 보낸 이도 많았지만 불편함을 두려움을 표출한 사람도 많았음



AI의 말투가 사람과 구별할 수 없을 정도로 흡사한 데 대해 경악의 목소리가 내며, 도대체 AI를 이 정도 수준까지 인간에 접근시켜 할 필요성이 과연 있는지에 대한 사회적 논의가 벌어지고 있기도 함


이번 구글 클라우드 넥스트에서 공개된 시연 영상에서 컨택트 센터 AI의 가상 에이전트가 처음부터 자신이 사람이 아닌 가상의 존재임을 밝힌 것은, 구글이 듀플렉스 발표 이후 벌어지고 있는 논쟁을 의식하고 어느 정도 비판을 수용한 것이라 볼 수 있음


구글에 따르면 컨택트 센터 AI는 완전히 듀플렉스 기반 기술이라 보기는 어려운데, 두 기술이 기본적인 구성 요소를 공유하지만 기술 스택과 전반적인 목표가 다르기 때문


듀플렉스가 일반 사용자 경험의 향상을 목표로 하고 있고 사용 방식을 아직 정하지 못하고 있는 기술이라면, 컨택트 센터 AI는 기업에 초점을 둔 것으로 구글 클라우드의 데이터 프라이버시와 거버넌스 정책을 준수하고 있어 기업에서 바로 사용할 수 있는 기술임


◾ 구글은 컨택트 센터 AI가 인간의 일자리를 빼앗는 것이 아니라 인간을 도와주는 솔루션임을 강조하고 있지만, 실제로 기업이 어떻게 활용할 것인지는 당분간 관망이 필요한 부분


AI를 접목한 콜센터 솔루션 부문에서는 IBM이 기존 솔루션에 왓슨(Watson)을 접목하며 앞서가고 있었지만, 구글이 자신들의 강점인 AI를 앞세워 지능형 기능을 강화하며 도전장을 내밈에 따라 이 부문 경쟁이 본격화될 전망


구글은 이번 발표회에서 각 기업이 자신들의 요구에 맞는 독자적인 AI를 개발할 수 있는 도구도 공개해 업무 형태에 따라 다양한 AI 콜센터를 구성할 수 있게 하였음


페이페이 리는 AI와 인간의 협력을 강조하며, 반복적이거나 간단한 작업을 AI에 맡기면 사람은 보다 지능적인 업무에 전념할 수 있다는 설명을 반복하였음


이 서비스는 인간의 재능을 고양(Elevating Human Talent)’ 시키는 것으로, 컨택트 센터 AI가 상담원들의 일자리를 빼앗는 존재가 아님을 강조한 것


그러나 콜센터를 운영하는 기업들이 데모 영상에 소개된 AI의 기능 정도만으로도 만족할 수도 있고, AI 성능의 향상에 따라 다양한 캐릭터의 에이전트가 사람보다 더 대응을 잘한다고 평가할 수도 있어 구글의 희망대로 기업들이 움직일 지는 두고 보아야 할 것임


구글이 컨택트 센터 AI로 인해 상담원의 일자리가 영향을 받지 않을 것이라고 강조하는 것은 역설적으로 그 만큼 빼앗을 위험이 크다는 것의 방증일 수도 있음


◾ 한편 컨택트 센터 AI의 서비스가 시작된 만큼, AI와 사람의 상호작용이 어떤 수준, 어떤 방식으로 되는 것이 좋을지에 대한 사회적 합의를 도출하는 데도 도움을 줄 것으로 보임


듀플렉스가 공개되었을 때 일각에서 AI가 너무 사람과 흡사하다며 불편한 감정을 표출한 것은 소위 언캐니 밸리(uncanny valley)' 현상으로 설명할 수 있음


언캐니 밸리는 로보틱스 이론 중 인간이 로봇에 느끼는 감정과 관련된 것인데, 1970년 일본의 로봇 공학자 모리 마사히로가 주장한 이론으로, 처음에는 로봇이 인간과 닮을수록 호감을 느끼다가 인간과 정말 비슷해지면 갑자기 깊은 두려움을 느끼게 되는 현상임


듀플렉스가 인간처럼 느껴진 이유는 사람들이 말을 할 때 나오는 좋지 않은 버릇, 소위 ‘disfluencies(눌변, 말더듬)’을 도입하고 있기 때문인데, ‘...’ 또는 ~’와 같이 의미 없는 중간 말을 대화중에 배치함으로써 인간미를 자아낸 것임


이를 불편하게 여기는 사람들은 듀플렉스가 인간을 모방할 필요는 없으며, AI라면 AI 답게 어색하게 말하라는 비판을 제기하고 있음


<자료> The Robot Report

[그림 6] 휴머노이드 로봇의 언캐니 밸리 효과


이에 대해 구글은 듀플렉스를 인간과 흡사하게 만들려고 한 이유는 AI가 어색하게 말하면 듣는 사람이 짜증이 나 전화를 끊어 버리는 일이 많기 때문이라 설명하고 있는데, 기계음에 짜증내던 사람도 듀플렉스의 발랄한 여성 목소리에는 친근감을 느낀다고 함


이용자를 대신해 AI가 레스토랑이나 미용실의 예약을 대행하는 듀플렉스와 달리, 콜센터의 AI는 무언가 문제를 가진 사람을 AI가 대응하는 것이므로, 사람이 AI에 대해 느끼는 감정이나 사람과 AI 사이의 상호작용은 보다 섬세하게 접근할 필요가 있을 것임


불만을 가진 사람들은 사람들을 대응하는 것이므로 기계가 아닌 사람인 것처럼 대응하는 것이 유리할 수도 있지만, AI100% 완전하게 대응이 불가능할 경우 짜증이 더 커질 것이므로 컨택트 센터 AI는 일단 채팅봇임을 밝히고 대화를 시작한 것이라 볼 수 있음


언캐니 밸리는 문자 그대로 해석하면 불편함의 계곡을 의미하며, 계곡에서 빠져나오지 못하면 더 이상 발전할 수 없다는 뜻을 내포하고 있음


AI가 보다 일상화되기 위해서는 AI가 적용되는 각 상황 맥락에서 사람과 어떤 방식으로 상호작용할 것인지를 영리하게 정립할 필요가 있으며, 컨택트 센터 AI와 같은 응용 사례가 늘어나면서 사회적 합의점을 찾아나갈 수 있을 것임


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1818호(2017. 10. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 하드웨어 신제품 발표, 제품 차별화 요소는 &lsquo;AI 최적화&rsquo;.pdf



[ 요 약 ]


구글이 작년에 이어 메이드 바이 구글(Made by Google) 행사를 통해 신제품을 대거 공개했는데올해 신제품 발표회의 테마는 하드웨어와 소프트웨어그 중에서도 인공지능(AI)의 통합이었음구글은 이번 신제품에 최신 AI 기술의 성과를 광범위하게 적용하며향후 AI가 기기 차별화의 결정적 요인이 될 것으로 바라보고 있음을 드러냈음스마트 기기의 하드웨어 차별성이 점차 엷어지는 가운데소프트웨어 최적화를 넘어선 AI 최적화가 제품 경쟁의 새로운 화두가 될 것으로 예상됨



[ 본 문 ]


ž 작년 10메이드 바이 구글(Made by Google) 하드웨어 신제품 5개를 일거에 출시했던 구글이 1년 만에 다시 신제품을 대거 발표하였음


Ø 이번에 발표한 신제품은 작년에 출시된 제품의 업그레이드 버전도 있지만, 구글로서는 새롭게 시도하는 제품들도 포함되어 있음


<자료> Google

[그림 1] Made by Google 2017


Ø 작년에 선보인 구글 자체 스마트폰 픽셀(Pixel)의 후속 버전으로 픽셀 2가 발표됐으며, 역시 작년에 선보인 인공지능(AI) 스피커 구글 홈(Google Home)은 이번에 구글홈 미니(Mini)구글홈 맥스(max)로 라인업이 확대되었음


Ø 올해 새롭게 선보인 제품으로는 액션 카메라인 구글 클립스(Google Clips)와 음악 재생 및 외국어 번역에 사용하는 블루투스 헤드셋 구글 픽셀 버즈(Google Pixel Buds), 그리고 크롬북의 상위 버전이라 할 수 있는 노트북 픽셀북(PIxelbook)이 있음


Ø 작년 10월에 이어 1년 만에 다시 하드웨어 발표회를 개최함으로써 향후 구글이 5월에 개최되는 연례 개발자 컨퍼런스 구글 I/O에 이어 10월의 신제품 발표회를 연례 행사화 할 가능성도 점쳐지고 있음


ž 이번 신제품 발표회의 테마는 하드웨어에 소프트웨어와 인공지능(AI)을 통합하는 것으로, 구글이 AI를 제품 차별화의 결정적 요인으로 바라보고 있음을 드러냄


Ø 구글홈 미니는 아마존의 소형 AI 스피커인 에코닷(Echo Dot)의 대항마 성격으로, 가격은 49 달러이지만 AI 가상비서 기능인 구글 어시스턴트(Google Assistant)가 탑재되어 있음


Ø 미니는 도넛 크기의 타원형 형상으로 상단에 LED가 탑재되어 기기 상태를 표시해주는데, 에코닷과 마찬가지로 가정 내 각 방에 하나씩 놓고 사용하는 것을 전제로 디자인 한 것으로 보이며, 구글이 집 전체 공간을 AI로 채우고 싶어함을 유추할 수 있음


Ø 맥스는 음질을 중요한 모델인 동시에 구글이 400 달러인 가격에 걸맞게 구글홈보다 20배 정도 성능이 강력하다고 소개할 정도로 AI 기반의 사운드 재생 기능이 뛰어난 기기임


Ø 2개의 4.5인치 우퍼를 내장해 깊이 있는 사운드 재생이 가능하며, 스마트 사운드(Smart Sound) 기능을 탑재하고 있어 주변 환경과 사용자의 컨텍스트에 맞게 음악을 재생할 수 있음



<자료> Google


[그림 2] 구글홈 미니(Mini)와 맥스(Max)


Ø 구글은 스마트 사운드 기능의 예로 AI가 방의 모양을 파악해 그에 적합한 사운드를 재생하거나, 아침 시간에는 볼륨을 좀 낮추어 재생하고 식기 세척기가 가동 중이어서 시끄러울 때는 볼륨을 높여 음악을 재생하는 것 등이 가능하다고 설명하고 있음


Ø 픽셀 2 스마트폰에는 지난 5월 구글 I/O에서 소개한 구글 렌즈(Google Lens) 기능이 처음으로 적용되었는데, 구글 렌즈는 구글 어시스턴트를 기반으로 렌즈에 비친 사물에 대한 정보를 불러들인 후 사진에 담긴 물체나 글자를 인식해 알려주는 AI 카메라임


Ø 픽셀북은 노트북과 태블릿 PC를 결합한 것으로 역시 구글 어시스턴트가 적용되어 있으며, 가령 픽셀북 펜을 이용해 디스플레이 화면 안의 특정 부분에 원을 그리면 구글 검색 엔진이 그 원안의 물체를 인식하고 관련된 정보를 검색해 줌


ž 구글이 AI를 신제품의 차별화 요소로 삼는 이유는, AI가 비단 구글의 하드웨어 신제품뿐 아니라 스마트 홈 생태계의 허브 기능을 담당할 것으로 보기 때문임


Ø 구글홈의 핵심 기능인 구글 어시스턴트는 스마트폰(안드로이드와 iOS), 스마트 워치(안드로이드 웨어), 텔레비전(안드로이드 TV) 등과도 연계할 수 있으며, 가상 비서의 인터페이스는 급속하게 음성으로 전환하고 있음


Ø 구글 어시스턴트는 생태계를 급속히 확장하고 있는데, 현재 스마트 홈 관련 기업 네스트(Nest), 필립스(Philips), 스마트씽스(SmartThings) 등이 내놓은 1천여 제품과도 연계가 가능함


Ø 특히 알파벳 산하의 네스트와 구글홈의 연계가 더욱 강화되고 있는데, 이번 기능 업그레이드로 네스트의 보안 카메라인 네스트 캠(Nest Cam)을 구글홈에서 조작할 수 있게 되었음


<자료> Google


[그림 3] 구글홈과 네스트 캠의 연계


Ø 이로써 가령 현관에서 무슨 소리가 나는 것 같을 때 구글홈에게 현관 앞 상황을 TV로 보여줘라고 명령하면, 구글홈이 네스트 캠에 찍힌 영상을 TV로 디스플레이 하는 것이 가능해졌음


Ø 또한 네스트의 스마트 초인종인 네스트 헬로(Nest Hello)도 구글홈에서 조작할 수 있게 되었는데, 네스트 헬로는 얼굴 인식 기능으로 방문자를 식별할 수 있는 친숙한 얼굴(Familiar Faces)라는 기능을 탑재하고 있음


Ø 따라서 누군가 초인종을 누르면 네스트 헬로가 그 인물을 인식해 구글홈에 알려주고, 구글홈이 이용자에게 방문자의 이름을 알려주는 것이 가능하며, 이런 기능을 활용해 네스트와 연계한 주택의 보안을 구글홈에서 집중 관리하는 것이 가능함


Ø 구글 어시스턴트가 허브가 되는 스마트 홈은 개인화 서비스도 가능한데, 보이스 매치(Voice Match) 기능을 통해 동시에 여섯 명의 목소리를 구분해 알아 듣고 개별 대응이 가능하기 때문


Ø 개인 맞춤형 서비스의 예로 이번 신제품 발표회에서는 에브리데이 루틴(Everyday Routines) 기능이 소개되었는데, 이는 한 단어만 듣고 그 사람과 관련된 여러 가지 명령을 동시에 실행하는 것으로 구글의 지향점을 잘 보여주고 있음


Ø 가령 식구들 중 회사로 출근을 해야 하는 사람이 있을 경우, 이 사람이 아침에 일어나 좋은 아침이라고 한 마디만 하면, 구글홈이 그의 하루 일정을 확인하고 일정에 따른 이동 경로의 도로 정체 정보를 알려주며 주요 뉴스를 읽어주도록 설정할 수 있음


Ø 또한 아이들이 구글홈에게 우리 게임하자라고 말을 할 경우, 아이들의 목소리를 인식하여 아이들이 안전하게 즐길 수 있는 게임을 실행하도록 설정할 수도 있음


ž 구글은 AI가 스마트 홈의 허브로 선택될 수 있도록 인간 친화적인 특성을 띠게 하는 데도 공을 들였는데, 여기에는 딥마인드(DeepMind)의 새로운 음성합성 기술이 기여를 하였음


Ø 구글홈의 음성 발화는 고급 AI가 적용되어 매우 매끄럽게 들리는데, 여기에는 딥마인드가 지난해 발표한 새로운 음성 합성(Speech Synthesis) 기술이 관여되어 있음


Ø 딥마인드가 새롭게 발표한 웨이브넷(WaveNet)은 심층신경망(Deep Neural Network)을 이용해 기계음이 인간에 가깝게 자연스럽게 발성할 수 있게 해주는 음성 합성 기술임


Ø 일반적으로 음성 합성은 말을 아주 작은 단위로 나눈 다음 필요한 음운, 음소, 단어에 맞게 조립하는 음성 연결 합성(Concatenative TTS)이라는 기법 사용하는데, 이 때문에 기계음은 말 그대로 기계적이고 어색한 톤으로 발화가 됨


Ø 딥마인드는 기존의 방식과 전혀 다른 접근 방식을 취했는데, 웨이브넷은 많은 수의 음성 샘플을 배우고 음성 파형(Audio Waveform)을 잘게 세분화 해 분석함으로써 음성 만으로는 알 수 없었던 숨 고르기나 단어 혹은 문장끼리 합쳐지는 방식까지 이해가 가능하게 하였음


Ø 구체적으로 살펴 보면 컨볼루셔널 신경망(Convolutional Neural Network, CNN)이 발화의 구성을 파악하여 어떤 음색(Tone) 후에 어떤 음색이 이어지는지, 어떤 파형(Waveform)이 자연스러운지 학습하게 되며, 이를 토대로 아주 부드러운 음성을 합성하게 됨


Ø 딥마인드는 웨이브넷이 인간의 미묘한 톤이나 억양, 말할 때의 속도 등을 그대로 재현할 수 있다고 설명했는데, 음성 연결 합성 방식이나, 인간 음성 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 기술과 블라인드 테스트를 한 결과 인간의 실제 음성에 육박하는 수준의 높은 점수로 1위를 차지했다고 함


Ø 단 작년 발표 시점에서 웨이브넷은 음성 합성을 빠르게 수행 할 수 없어 0.02 초의 오디오를 생성하는데 1 초가 필요했으나, 그 동안 알고리즘 개선을 통해 빠른 음성 합성까지 가능해졌다고 하며, 현재 1 초 길이 오디오를 50 밀리 초에 생성하므로 실시간 사용이 가능하다고 함


[1] 딥마인드 웨이브넷과 음성 합성 기술의 비교

 

Concatenative

Parametric

WaveNet

인간의 음성

미국식 영어

3.86

3.67

4.21

4.55

만다린 중국어

3.47

3.79

4.08

4.21

<자료> DeepMind


ž 하드웨어들의 주요 기능이 점차 천편일률적으로 되어 가는 상황에서, 이번 구글의 신제품 발표회는 향후 AI 최적화가 스마트 기기의 시장 성패를 가르게 될 것임을 강하게 시사


Ø 구글홈을 비롯해 이번에 구글이 발표한 제품들의 배후에는 최신 AI 기법이 광범위하게 사용되고 있는데, 이용자의 음성을 인식하는 데뿐만 아니라 음성 합성 역시 AI 없이는 매력적인 특색을 실현할 수 없음을 보여주고 있음


Ø 소프트에어 기업인 구글이 자체 하드웨어 생산에 나선 데에는 여러 가지 이유가 있겠으나, 하드웨어를 통한 차별화는 이제 한계에 다다르고 소프트웨어를 통한 차별화, 그 중에서도 AI에 의한 차별화가 제품 경쟁력의 핵심 요소가 될 것으로 판단했기 때문이라 볼 수 있음


Ø 가령 지금까지 스마트폰의 경쟁 구도는 애플의 소프트에어 최적화와 삼성전자의 하드웨어 고사양화로 요약할 수 있는데, 아이폰이 상대적으로 낮은 하드웨어 사양을 소프트웨어 최적화로 커버했다면, 갤럭시 폰은 소프트웨어의 단점을 하드웨어 혁신으로 커버하는 전략이었음


Ø 그러나 최근 들어 아이폰이나 갤럭시 폰을 비롯해 대부분의 스마트폰 사양들은 유사해지고 있는데, 구글은 이를 하드웨어 혁신의 속도가 둔화된 것, 즉 하드웨어 부문을 직접 관리하는 부담이 적어지는 신호로 받아들였을 가능성이 큼


Ø 따라서 보다 중요해지는 것은 애플과 같은 소프트웨어 최적화 역량인데, 구글은 안드로이드 OS와 하드웨어의 최적화에 덧붙여 AI 최적화를 무기로 하드웨어 비즈니스에 뛰어들려는 것으로 해석할 수 있음


Ø 하드웨어 경쟁력보다 소프트웨어 경쟁력이 압도적 이윤을 가져다 줄 수 있다는 점은 이미 애플과 삼성전자의 경쟁에서 확인된 바 있거니와, 구글은 이에 더해 AI가 제품의 차별화와 이윤을 가져다 줄 것이라 주장하는 것임


Ø 구글이 던진 AI 최적화의 화두는 스마트 디바이스 시장의 경쟁 지형을 새롭게 재편할 가능성이 크며, 디바이스 제조업체들 앞에 쉽지 않은 숙제가 던져진 셈