※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1828호(2017. 12. 27. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

사람 같이 대화하는 AI, ‘소셜봇’ 개발을 위한 아마존의 도전.pdf



[ 요 약 ]


아마존웹서비스 리인벤트 컨퍼런스에서는 아마존의 인공지능 가상 비서 알렉사(Alexa)와 관련한 두 가지 흥미로운 발표가 있었음하나는 알렉사를 기업 업무 시스템과 연결해 직원들의 업무 효율성을 높여 주는 비즈니스용 알렉사알렉사를 통해 회의실 관리나 재고 관리 등이 가능함을 보여주었음또 하나는 알렉사 프라이즈로 사람처럼 대화하는 AI의 개발을 위해 아마존이 주최한 콘테스트였는데수상작들은 아직 미흡하나 사람과 흥미로운 대화가 가능할 수 있음을 보여주었음



[ 본 문 ]


ž 11월말 열린 아마존웹서비스 리인벤트(AWS re:Invent) 2017에서는 두 가지 이벤트가 눈길을 끌었는데, 우선 아마존은 비즈니스용 알렉사(Alexa for Business)를 발표하였음


Ø 비즈니스용 알렉사는 음성 인식 기능을 이용해 업무 자동화를 한 것으로, 음성을 통해 명령을 내리고 필요한 정보를 전달받음으로써 업무 처리의 시간 효율성을 높이는 것이 목적임


<자료> Amazon


[그림 1] 비즈니스용 알렉사 스타터 키트


Ø 소비자용 음성 비서였던 알렉사를 기업용으로 전환한 서비스로, 규칙이 정해진 업무나 단순한 업무를 중심으로 가상 비서가 처리를 대신함으로써 업무 환경을 보다 직원 친화적으로 조성하여 핵심 업무에 집중할 수 있도록 한다는 것


Ø 가령 알렉사가 탑재된 인공지능 스피커 아마존 에코(Echo)를 회의실에 두면 방 예약 및 화상 회의 연결을 말로 지시 할 수 있으며, 문서 출력실에 둔다면 용지가 떨어졌을 때 에코에게 주문을 지시할 수 있어 사무 업무가 편리해 질 수 있음


Ø 아마존은 비즈니스용 알렉사 스타터 키트로 우선 에코, 에코닷, 에코 쇼 3가지 디바이스를 선보였는데, 이 중 에코 쇼(Echo Show)는 기업용 서비스에서 처음 선보이는 디바이스 모델임


Ø 비즈니스용 알렉사는 개인 이용 모델(Enrolled User)와 공유 모델(Shared Device)이 있는데, 전자는 모든 직원이 책상에 두고 개인 업무에 이용하는 형태이며, 후자는 회의실 등 공공 장소에 두고 여러 직원이 공동으로 사용하는 형태임


Ø 현재 소비자용 알렉사가 무료인 반면, 기업용 알렉사 이용은 유료 서비스인데, 요금은 공유 모델이 디바이스마다 월 7달러이고, 개인 이용 모델은 유저 당 월 3달러이며, 기업의 IT 부서에서 디바이스와 이용자 관리를 하게 됨


Ø 비즈니스용 알렉사는 우선 영어, 독일어, 일본어 등 3개국 언어를 지원하지만, 언어별 음성인식 기술의 진전 정도에 따라 이용 국가는 점차 늘어나게 될 것임


ž 아마존이 제시한 비즈니스용 알렉사의 대표적 활용 예는 회의실 관리인데, 시스코, 폴리컴 등 기업 커뮤니케이션 솔루션 업체들과 연계해 알렉사에 회의실 관리 기능을 추가하였음


Ø 우선 각 직원들은 알렉사를 탑재한 기기를 책상에 두고 일정관리 비서로 활용할 수 있는데, 알렉사에게 회의 일정을 질문해 확인할 수도 있고, 다른 팀과 미팅 일정을 잡아달라고 요청하면, 이 요청을 다른 팀의 비서에게 전달한 후 협의하여 일정을 잡아 줌


Ø 회의실에서도 알렉사를 비서로 활용할 수 있는데, 화상회의를 시작해 달라고 요청하면 알렉사가 지정된 번호로 전화를 걸게 되고 모니터에 회의 참가자의 얼굴이 비춰지게 됨


<자료> Amazon


[동영상] 비즈니스용 알렉사의 다양한 활용: 회의 진행 보조와 안내 데스크 역할 등


Ø 프리젠테이션 중에 자료가 필요하다면 알렉사에게 원하는 자료를 보여 달라고 지시할 수 있고, 알렉사는 지난달 매출 실적 등과 같이 업무 시스템에 요청하여 받은 자료가 화면에 보여지도록 처리하게 됨


Ø 회의실 외에도 다양한 장소에 설치하여 활용 방안을 만들어 나갈 수 있는데, 가령 사무실 입구에 알렉사 탑재 기기를 설치해 두면 알렉사가 안내 데스크의 역할을 할 수 있어, 만나고 싶은 직원의 방 위치를 묻는 질문에 답해줄 수 있음


Ø 문서 처리실에 설치해 두면 용지 부족 시에 종이 주문을 명령하는 것 외에도, 컬러 출력 작업을 긴급히 해야 하는데 해당 컬러 프린터에서 흑백 인쇄 작업이 진행 중일 경우, 해당 작업을 흑백 프린터로 옮겨 인쇄할 것을 명령하는 등의 일도 할 수 있음


ž 알렉사의 비즈니스 솔루션은 아마존의 파트너 기업들이 제공하게 되는데, 세일즈포스닷컴, 폴리컴, 컨커 등 유명 기업용 솔루션 업체 외에도 많은 스타트업들이 파트너로 참여 중


Ø 스타트업 (Teem)은 이미 많은 기업에서 회의실 관리에 사용하는 솔루션을 제공 중이며 회의실 입구에 디스플레이를 설치해 룸 이용 현황을 보여주는데, 알렉사와 연동해 음성을 통한 회의실 관리 기능을 제공할 수 있게 되었음


Ø 회의실을 예약 할 때는 방에 설치되어 있는 에코 디바이스에 알렉사, (Teem)에 이 방 예약을 요청해 줘라고 명령하고, 회의실 사용을 시작하면 알렉사 팀에게 이 방 체크인을 요청해 줘라고 말하며, 회의 시간 연장 요청 등도 명령할 수 있음


Ø ERP 솔루션을 제공하는 스타트업 애큐매티카(Acumatica)는 알렉사를 이용하여 재고 관리 시스템을 음성으로 제공하기 때문에, 알렉사, 애큐매티카에 노트북 재고가 얼마나 있는지 물어봐 줘 등과 같이 명령할 수 있으며, 답을 듣고 재고량이 부족하다고 판단하면 알렉사, 애큐매티카에 10개를 주문해 달라고 해줘라고 명령할 수 있음


Ø ERP와 같은 기간 시스템에 접속하기 위해서는 알렉사의 인증 기능을 강화하는 것이 과제가 되는데, 알렉사의 인증 방식은 4자리의 PIN(개인식별번호)을 말로 이야기하는 것이 일반적이나 PIN을 다른 사람이 들을 위험이 있어 성문 등 생체 인식 인증을 준비 중이라고 함


Ø 고급 리조트 호텔인 윈 라스베이거스(Wynn Las Vegas)는 모든 객실에 아마존 에코를 도입하여 활용 중인데 총 4,748 개의 에코가 설치되어 있어 손님들은 호텔과 객실 정보를 프런트가 아닌 에코에 물어볼 수 있음




<자료> Wynn Las Vegas


[동영상호텔 전 객실에 배치된 아마존 에코


Ø 또한 숙박 고객은 음성으로 객실 시설을 컨트롤 할 수 있는데, 알렉사 나 들어 왔어라고 말하면 방의 전등이 켜지며, 알렉사 뉴스 틀어줘라고 말하면 TV가 켜지고 뉴스 채널이 선택됨


Ø 알렉사가 컨시어지 서비스가 되어 손님들을 지원하게 되는 것인데, 호텔 측은 숙박객이 프런트에 전화하는 횟수가 줄어 비용 절감 효과가 있는 것으로 분석하고 있음


ž 미국에서는 AI 스피커가 소비자들에게 대체로 좋은 평을 얻어가고 있는 중이기 때문에, 명령 처리 구현이 상대적으로 용이한 기업용 알렉사 역시 반응이 좋을 것으로 예상됨


Ø 아마존의 워너 보겔스 CTO는 음성을 통해 직원과 시스템이 자연스럽게 상호작용 하는 것이 AI가 기업의 비즈니스에 가져올 첫 번째 파괴적 혁신이라며, 대화형 컴퓨팅이 미래에 어울리는 자연스러운 사용자 환경이라고 비즈니스용 알렉사의 출시 의의를 설명하고 있음


Ø AI 기반 대화형 컴퓨팅은 기술적 측면으로만 보면 소비자용 서비스보다 처리 업무가 구조화되어 있는 기업용 서비스에서 보다 용이하게 구현할 수 있음


Ø 소비자용 AI 음성인식 서비스에서는 일정관리 같이 정해진 태스크를 처리해야 하는 경우도 물론 있지만 이용자의 상황과 감정에 맞게 대화를 나누는 것 자체가 보다 중요한 경우가 있기 때문에 보다 고도의 지능적인(인간적인) AI 기술의 구현이 뒷받침되어야 함


Ø 반면 기업용 음성인식 서비스는 직원의 태스크 처리 지원이 본질적인 기능이기 때문에, 즉 업무 처리를 손이 아닌 로 한다는 인터페이스의 성격이 강하기 때문에 명령어를 정확하게 인식하는 것이 중요하며 사실 인공지능적 기능은 그리 필요하지 않음


Ø 명령어만 올바로 인식이 된다면 그 다음은 기업의 업무 시스템에 그 명령어를 전달하기만 하면 되고, 업무 시스템들이 처리해 준 결과를 다시 이용자에게 전달해주면 되기 때문


Ø 인공지능 스피커를 이용해 본 경험이 있는 직원들이라면 생소함 없이 비즈니스용 알렉사를 이용할 수 있을 것이며, 기업에서 알렉사는 정해진 태스크만 처리하면 되므로 보안 이슈 등으로 인해 인터페이스에 노이즈 발생이 없다면 도입 효과는 높을 것으로 전망해 볼 수 있음


ž AI 스피커와 관련한 아마존의 목표 대화하는 AI의 개발이기 때문에, 이번 리인벤트 2017에서 비즈니스용 알렉사보다 눈길을 끈 것은 아마존의 알렉사 프라이즈 콘테스트임


Ø 알렉사 프라이즈(Alexa Prize) 20분간 사람과 대화할 수 있는 채팅 로봇 개발을 목표로 아마존이 총상금 250만 달러를 내걸고 주최한 경진 대회로 올해가 첫 행사였는데, 올해 9월부터 2개월간 진행되었고 리인벤트 2017 컨퍼런스에서 시상식이 진행되었음


Ø 22개국에서 100개 이상의 대학 팀이 기술을 겨룬 이번 대회에서는 워싱턴 대학 팀이 우승을 차지해 50만 달러의 상금을 받았음


<자료> Amazon


[그림 2대화 AI 개발을 위한 알렉사 프라이즈


Ø AI에게 대화 기법은 매우 어려운 일이어서 영원히 목표에 도달할 수 없다는 의견도 있을 정도인데, 아마존은 알렉사를 통해 이 목표에 다다를 기술을 연구하고 있지만 대학 팀의 연구 참가로 젊은 두뇌들에 의한 돌파구를 기대하며 이번 콘테스트를 개최하였음


ž 아마존은 대화하는 AI소셜봇(Socialbot)이라 부르는데, 소셜봇은 채팅봇으로도 불리며, 알렉사의 스킬(Skill, 앱스토어의 앱에 해당) 중 하나로 분류됨


Ø 소셜봇은 에코를 통해 다양한 화제에 관해 이용자와 음성으로 대화하는데, 연예, 스포츠, 정치, 패션, 기술 등을 대화 화제로 자연스럽게 대화가 진행되도록 하는 것이 개발 목표임


Ø 참가 팀은 아마존에서 제공하는 음성 응용프로그램 개발 환경(Alexa Skills Kit)을 사용하여 소셜봇을 개발하게 되며, 심사위원이 소셜봇과 20분간 대화한 후 회화 능력을 평가하게 됨.


Ø  구체적으로 소셜봇이 화제의 일관성을 가지고 있는지(Coherently), 상대를 끌어 당기는지(Engaging) 등의 능력을 평가하는데, 이는 튜링 테스트(AI가 인간인 척하는 능력의 시험)가 아니고, 어디까지나 회화 능력을 시험하는 것임


Ø 상위 3개 팀의 소셜봇은 공개되어 있으며 아마존 에코에 설치하여 직접 대화해 볼 수 있는데, 실제로 소셜봇과 이야기해 본 사람들은 대체로 기술력이 아직 미완성이어서 대화가 어눌하고 서툴다는 평을 내놓고 있음


Ø 그러나 소셜봇이 꺼내 놓는 주제가 재미있고 입담도 느껴져 대화에 매료되었다는 평도 있으며, 인간 수준에 도달하려면 아직 시간이 걸리겠지만 큰 잠재력이 있음을 실감했다는 의견도 많음


[동영상] 스포츠를 주제로 한 소셜봇과 대화 장면


ž 우승을 차지한 워싱턴 대학 팀의 채팅봇을 비롯해 소셜봇은 이용자의 질문에 반응하는 것뿐만 아니라 AI가 습득한 지식을 기반으로 대화를 주도해 나갈 수 있는 것이 특징임


Ø 아마존 에코에서 소셜봇을 시작하면 소셜봇은 우선 기분은 어떻습니까와 같이 가벼운 인사를 한 후 대화에 들어가는데, 대화 기법에서는 이를 아이스브레이커(Icebreaker)라 부르며 갑자기 본격적인 대화에 들어가는 것이 아니라 우선 딱딱한 분위기를 풀어 주기 위한 것임


Ø 분위기가 풀어졌다고 생각하면 소셜봇은 상대가 흥미를 가질 만한 대화의 주제를 제시하는데 이는 대화 기법 중 토픽 제안(Topic Suggestion)에 해당하는 것으로, 소셜봇은 처음 대화를 갖는 상대에게는 일반적으로 받아들여질 수 있는 화제를 제시함


Ø 소셜봇이 제시한 몇 가지 주제 중에서 가령 인공지능에 관해 이야기하자고 대답하면 소셜봇은 페이스북이 이용자가 올린 사진에서 그 사람의 감정을 추측하는 AI를 개발하고 있다는 등 인공지능과 관련한 몇 가지 재미있는 이야기들을 말해 줌


Ø 이는 대화 기법 중 지식 섭취(Knowledge Ingestion)에 해당하며, 소셜봇은 최신 화제거리를 항상 받아보기 때문에 대화에서 깊은 지식을 내비치며 상대를 끌어 당길 수 있는데, 이는 사람 사이의 대화에서 신선한 화제가 많은 사람이 상대에게 호감을 주는 것과 같은 것임


Ø 소셜봇의 이야기에 대해 어떻게 그런 구조가 가능하지?라고 되묻거나 짓궂은 질문을 던지게 되면 소셜봇은 아직 제대로 답을 하지 못하는 경우가 많음


Ø 상대가 관심을 가지고 있는 사안에 대해 심도 있게 설명하는 것을 대화 기법에서는 심해 잠수(Deep Dive)라고 부르는데, 딥 다이브가 잘 되어야 이야기가 깊어지고 대화가 진행되는데, 현 단계의 소셜봇은 딥 다이브 단계의 대화가 잘 이루어지지 않고 있음


Ø 소셜봇은 비록 대답을 못하더라도 거기서 그치지 않고 인공지능과 관련한 이야기를 계속할까요? 등의 질문을 하는데, 이는 대화 기법 중 대화 주도(Leading Conversation)라 하는 것으로 대화가 중단될 것 같은 경우에 대화를 이끎으로써 계속 이어지게 하는 것임


Ø 소셜봇은 종종 사용자가 원하는 주제를 무시하고 자신이 준비한 이야기를 하는 모습을 보이는데 비록 상대가 소셜봇이라는 것을 알지만 기분이 좋게 느껴지지 않는다는 평을 듣고 있으며, 반대로 사람이 주제를 갑자기 바꾸면 어떻게 된 거냐며 불안한 정서를 내비친다고 함


Ø 소셜봇 이용자들은 대체로 아직 소셜봇과 인간처럼 대화하는 것은 어렵지만 대화의 내용은 재미있고 대화 시간은 10~15분 정도인 것으로 평가하고 있는데, 아마존의 목표가 20분간 대화인 데에서 알 수 있는 아직 연구 개발은 더 지속되어야 할 것으로 보임


[동영상] 영화를 주제로 한 소셜봇과 대화 장면


ž 소셜봇은 아마존의 음성 응용프로그램 개발 환경에서 만들어지므로, 연구 팀은 아마존이 제공하는 음성 인식과 음성 합성 기능을 이용할 수 있음


Ø 음성 인식(Automatic Speech Recognition) 기능은 음성을 텍스트로 변환하는 과정에 이용하며, 음성 합성(Text-to-Speech) 기능은 텍스트를 음성으로 변환하는 과정에 이용하는데, 이를 통해 사람이 하는 말을 시스템이 인식하게 되고 소셜봇의 의도가 알렉사의 목소리로 나오게 됨


Ø 연구 팀들은 음성 인식과 음성 합성의 중간 프로세스에 해당하는 대화 기술을 개발하고 그 기량을 견주게 되는데, 아마존은 원활하게 대화하는 것은 물론이거니와 소셜봇의 입담이나 캐릭터 등도 개발도 목표로 하고 있음


Ø 연구자들은 소셜봇이 흥미로운 주제를 이야기하는 것뿐만 아니라 자신의 주장을 가지고 의견을 말할 수 있는 단계가 시야에 들어왔다고 말하고 있으며, 상대방의 말에 농담으로 답변할 수 있는 단계가 되면 완성도가 부쩍 향상될 것으로 보고 있음


ž 자율운전 자동차 기술이 대학 간의 경쟁을 통해 급진전을 이루었듯, 아마존은 대학의 연구에서 대화하는 AI의 개발이라는 거대한 도전의 목표가 달성될 것을 기대하고 있음


Ø 아마존 에코와 구글 홈의 보급이 폭발적으로 증가하고 있고, 비즈니스용 알렉사가 출시되어 이제 기업에서의 활동도 점차 늘어나게 된다면, 이미 대학에서 뜨거운 연구 주제로 부상한 AI에 대한 연구 열기는 더욱 높아질 것임


<자료> Greg Shank


[그림 3] 알렉사 프라이즈에 참가한 대학들



Ø 자율운전차 기술도 대학 연구팀의 참여가 늘어나며 거대 IT 기업과 자동차 제조업체에 우수 인재들이 진출하게 되고, 새로운 자율운전 관련 하드웨어와 소프트웨어 스타트업들이 등장하며 단기간에 급진전을 이룬 바 있음


Ø 아마존은 음성인식 인공지능 분야에서도 이 같은 연구 열기가 재현되기를 기대하며 2018년에도 알렉사 프라이즈 콘테스트를 준비하고 있음


Ø 또한 대학의 연구 역량과 연계하려는 이런 시도는 비단 아마존뿐 아니라 AI 가상 비서 시장을 놓고 경쟁 중인 구글, MS, 애플 등을 통해서도 전개될 가능성이 높음


Ø 대화하는 AI의 개발이 과연 가능할 것인지, 대화하는 AI가 과연 얼마나 인간에 가까워질 수 있을 것인지, 2018년에 또 하나의 인류의 위대한 도전(Grand Challenge)이 본격화될 것으로 보임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1825호(2017. 12. 6. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

위성사진 분석으로 경제 정보 제공, 투자자들이 주목하는 AI 스타트업.pdf



ž AI(인공지능) 스타트업 오비털 인사이트(Orbital Insight)는 위성사진을 분석한 후 경제와 관련된 최신 정보를 가공하여 제공하고 있음


Ø 파이낸셜 타임스(FT) 2017 11월 정정 불안으로 흔들리는 사우디 아라비아의 비밀을 폭로하는 기사를 게재했는데, 2016 1분기를 기점으로 사우디 아라비아 정부가 발표하는 원유 저장량 수치가 현실과 괴리를 보이기 시작한다고 밝힌 것


<자료> Orbital Insight


[그림 1] 사우디 원유 저장량 데이터 비교


Ø 사우디의 원유 저장량은 사우디 정부가 발표한 데이터보다 실제로는 훨씬 많다고 폭로한 것인데, 사우디는 외국인의 입국을 엄격히 제한하는 등 비밀주의를 고수하고 있어, 사우디 정부가 은폐한 원유 저장량 데이터를 어떻게 입수했는지에도 관심이 모였음


Ø 익명의 정부 요인이나 석유 메이저, 아니면 강대국의 정보기관 등을 떠올려 볼 수 있지만 사실 FT 기사에서 언급한 정보 소스는 미국의 스타트업 오비털 인사이트(Orbital Insight)였음


Ø 오비털 인사이트는 위성 사진을 인공지능(AI)으로 분석하여 전세계에서 전개되는 다양한 경제 활동의 최신 흐름을 파악해 주는 정보 서비스를 제공하고 있는 스타트업 기업임


Ø 가령 원유 저장량이라면 전세계 2 4천여 개의 원유 탱크에 있는 부상형 덮개(floating roof)에 주목하는데, 원유 탱크의 덮개는 고정된 것이 아니라 휘발성이 강한 유류가 공기 중에 노출되어 증발함으로써 손실되는 양을 줄이기 위해 액면의 수위에 따라 부유하는 구조임


[그림 2] 원유 저장소의 부상형 덮개 (Floating Roof)


Ø 따라서 원유 탱크를 위에서 관찰하면 오일 탱크 벽면의 그림자 크기로 부상형 덮개의 높이를 알 수 있고 이를 통해 원유 탱크의 잔량을 알 수 있게 되는 것임



<자료> Sky Perfect Communication

[그림 3원유 탱크 부상형 덮개의 그림자

Ø 오비털 인사이트는 원유 탱크의 그림자 크기 등에서 잔량을 파악하는 이미지 분석 엔진을 기계 학습 기반으로 개발하였음


Ø 그리고 디지털글로브(DigitalGlobe), 에어버스(Airbus), 플래닛 랩스(Planet Labs) 등 민간 위성 회사에서 구입한 전세계 위성 사진을 이미지 분석 엔진으로 분석함으로써 원유 탱크의 잔량을 월별 또는 주별로 산출하여 정보를 필요로 하는 투자자들에게 제공하고 있음


ž 오비털 인사이트는 정부 기관들이 정확히 발표하지 않는 정보, 공식적으로 알려지지 않은 정보들을 자체 기술을 통해 산출하여 제공하고 있음


Ø 경제협력개발기구(OECD)에 포함된 선진국들은 대개 원유 저장량 등의 경제 통계를 정확하게 발표하고 있지만, 사우디 아라비아와 같은 OECD 비회원국은 정부가 발표하는 경제 통계가 부정확한 경우가 많고 원유 탱크의 수와 위치 자체도 분명하지 않음


Ø 오비털 인사이트의 AI가 위성 사진을 바탕으로 사우디의 원유 탱크를 전면 재조사한 결과, 석유 산업의 조사 기관이 과거 산출했던 것보다 2배가 많은 원유 탱크가 있는 것으로 밝혀졌음


Ø 또한 2014년 이후의 위성 사진을 분석하여 AI로 추정한 사우디의 원유 저장량과 사우디 정부가 국제기구인 JODI(Joint Organizations Data Initiative)에 보고해 온 데이터 역시 불일치 하는 것으로 나타났음


Ø 사우디 정부는 원유 가격이 하락하기 시작한 2016 1분기부터 현재까지 자국의 원유 저장량이 25%나 감소했다는 데이터를 공표했으나, 실제 사우디의 원유 저장량이 감소하기는커녕 증가하고 있었던 것임


Ø 오비털 인사이트는 지난해에도 중국 원유 저장량이 중국 당국의 공식 발표보다 많다는 사실을 밝혀내 일약 월가가 주목하는 유망 스타트업으로 떠올랐는데, 당시 오비털 인사이트는 중국 전역을 촬영한 이미지를 AI로 분석해 2,000개가 넘는 중국의 원유 저장탱크를 찾아냈음


ž 오비털 인사이트는 최신 AI 기술을 토대로 이제는 작은 스타트업의 정보 수집능력이 정부기관을 앞서는 시대가 되었다고 말하고 있음


Ø 위성 사진을 이용한 정보 분석은 각국의 정부 기관이 예전부터 해오던 일이었으나, 지금까지도 인간의 눈에 많은 분석을 의지하고 있었기 때문에 스케일의 확장이 어려움


Ø 그러나 오비털 인사이트에 따르면 딥러닝을 비롯한 AI 기술과 이미지 인식 기술의 발전을 통해 이제는 일개 민간 기업이 수백만~수천만 장의 위성 사진을 분석 할 수 있는 시대가 도래하였음


Ø 가령 미국의 원유 저장량은 정부 기관인 EIA(Energy Information Agency)가 조사하여 공표하고 있는데, EIA는 전화를 걸어 사람이 직접 원유 매장량을 조사하고 있기 때문에 통계를 작성하는데 3일 정도의 시간이 필요하다고 함


Ø 그러나 오비털 인사이트는 위성 사진을 모으고 나면 1시간 이내에 미국 전역의 원유 저장량을 산출할 수 있는데, 정부 기관의 정보 수집 능력을 스타트업이 가볍게 넘어서고 있는 것임


Ø 새로 업데이트되는 수많은 위성사진을 분석하려면 80만 명 가량의 인력이 필요하지만 오비털 인사이트는 자체 개발한 AI 알고리즘을 활용해 단 몇 명만으로 같은 일을 해내고 있음


Ø 이런 잠재력을 인정받아 2013년에 설립된 오비털 인사이트는 글로벌 최대 벤처캐피털(VC)인 세콰이어캐피털을 비롯한 주요 VC로부터 총 8,000만 달러의 투자를 유치하고 있음


ž 오비털 인사이트가 위성 사진에서 뽑아내는 정보는 다방면에 걸쳐 있으며, 이들이 정부 기관에 앞서 발표하는 데이터는 미국 투자자들의 투자 판단에 활용되고 있음


Ø 이 회사는 미국의 소매 매장의 손님 수나 자동차 수출입 대수, 주택 착공 건수, 농지 개발 동향 등 다양한 데이터를 정부 기관이 경제 통계로 발표하기 전에 재빨리 제공하고 있음


Ø 이 데이터들은 헤지 펀드 등 주로 미국의 투자자들이 구입하는데, 주식 시장과 선물 시장 등에서 투자 판단에 활용하고 있다고 함


Ø 예를 들어 소매업종에서 손님 수를 분석하기 위해서는 쇼핑몰이나 대형 소매점의 주차장을 촬영한 위성 사진을 사용함


Ø 오비털 인사이트가 디지털글로브와 에어버스로부터 주문하는 위성 사진의 해상도는 50 센티미터 크기의 물체를 식별할 정도로 고해상도이기 때문에, 이 사진들을 이미지 인식 엔진으로 분석하면 주차장에 있는 자동차 대수를 정확하게 셀 수 있다고 함


<자료> Orbital Insight


[동영상] 쇼핑몰 주차장 사진 분석을 통한 실적 예측


Ø 이 회사가 고정적으로 관측하고 있는 곳은 미국에 있는 26만 개 소매 점포 및 5,600 곳의 쇼핑몰 주차장인데, 주차 차량 대수로부터 미국 전체 및 주 단위의 소매업 경기 동향뿐만 아니라 주요 소매 체인점 165개의 실적도 예측이 가능하기 때문


Ø 오비털 인사이트는 플래닛 랩스가 운영하고 있는 80개 이상의 소형 위성이 촬영한 사진도 분석에 사용하기 시작했는데, 플래닛 랩스의 위성 사진 포인트는 촬영 빈도가 주 단위임


Ø 이전까지는 월별 동향을 분석하는 것이 고작이었지만, 플래닛 랩스의 위성 사진을 사용함으로써 주별 데이터 분석도 가능하게 된 것임


ž 오비털 인사이트는 자신들과 같은 스타트업이 가능하게 된 것은 3가지 기술 요소 때문인데, 그 중에서도 클라우드의 역할이 제일 크다고 설명하고 있음


Ø 오비털 인사이트가 스스로 꼽고 있는 자신들의 서비스가 가능하게 된 이유 세 가지는 민간 위성 회사들의 대두, 딥러닝을 비롯한 AI의 발전, 클라우드 컴퓨팅의 등장


Ø 이 중 클라우드 컴퓨팅을 가장 중요한 요소로 꼽고 있는데, .IT 인프라에 전혀 투자를 하지 않고 30년치의 위성 사진을 저장할 수 있게 된 것은 정말 놀랍고 멋진 일이라는 것임


Ø 현재 오비털 인사이트는 데이터의 수집과 분석을 위한 IT 인프라로 아마존 웹 서비스를 전면적으로 채택하고 있음


ž 오비털 인사이트와 같은 AI 스타트업이 활약하는 분야는 향후 비약적으로 늘어날 가능성이 있는데, 그 열쇠가 되는 것은 드론임


Ø 구글과 페이스북은 현재 이동통신망이 정비되지 않은 개발도상국에서 휴대 기지국 설비를 탑재한 열기구와 드론을 이용해 저렴한 비용으로 인터넷을 제공한다는 계획을 추진하고 있음


Ø 구글의 풍선을 이용한 인터넷 서비스 명칭은 프로젝트 룬(Project Loon)이며, 페이스북의 드론 프로젝트 명칭은 아퀼라(Aquila).


Ø 이러한 이동 통신망용 드론이나 열기구는 항공 사진 촬영도 할 수 있는데, 구글과 페이스북의 계획이 실현되었을 즈음에는 항공 사진을 이용한 빅 데이터 분석이 지금까지보다 압도적인 대규모로 또한 매우 빈번한 주기로 실행되는 시대가 도래해 있을 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

딥러닝에도 보안 문제, 인공지능(AI)을 속이는 수법에 주의할 필요.pdf



ž 인공지능(AI)이 판단을 잘못하면 큰 사고를 일으킬 수 있기 때문에 구글은 AI의 신뢰성 훼손 시도에 대한 대응책 마련에 적극 나서고 있음


Ø 지난 10월 실리콘밸리에서 개최된 딥러닝 컨퍼런스 베이런(BayLearn) 2017에서는 딥러닝에 존재하는 보안 문제가 큰 테마로 다루어졌음


Ø 딥러닝은 데이터로부터 규칙을 도출하기 위해 신경망을 훈련시키는 과정을 거치는데, 이때 사용되는 데이터에 잘못된 것을 섞거나 데이터에 일종의 노이즈를 추가함으로써 AI에 오류를 발생시킬 수 있다는 것임


Ø 구글의 AI 연구 부문인 구글 브레인의 이언 굿펠로우는 앞으로 AI를 어떻게 방어할 것인가가 큰 과제가 될 것이며, 구글은 AI의 신뢰성 확보를 위해 대책 마련에 나설 것이라 밝힘


ž 이언 굿펠로우에 따르면 기계학습 기반의 이미지 인식 기술에 대한 공격 방법 중 대표적인 것이 적대적 사례(Adversarial Example) 기법임


Ø 적대적 사례 공격은 이미지 인식 모델에 인식시키는 데이터(example)에 일종의 노이즈를 추가함으로써 이미지의 피사체를 오인시키는 공격 방법임


Ø 노이즈가 더해진 이미지는 사람의 눈에는 노이즈를 더하기 전과 변함없는 것처럼 보이지만, 이미지 인식 모델에는 전혀 다른 이미지로 비춰진다고 하는데, 노이즈가 가해진 이미지를 적대적 사례라고 부름



Ø 적대적 사례 공격이 무서운 이유는 악용하기가 용이하면서도 일상 생활에 미치는 영향이 클 수 있기 때문인데, 가령 자율운전 차량에 교통 표지판을 잘못 인식하게 하는 공격이 가능함


Ø 워싱턴 대학의 이반 에브티모프 등이 20177월에 발표한 연구 결과에 따르면 교통 표지판에 정교하게 만든 스티커를 붙여 넣으면 이미지 인식 모델이 속아 정지 표지판을 속도 제한 표지판으로 잘못 인식하게 되었다고 하는데, 이는 자율운전의 안전성에 직결되는 문제임


<자료> ITPro


[그림 1] 자율운전차량에 대한 적대적 사례 공격


ž 또 다른 대표적 공격 방법으로는 이미지 인식 모델을 도출하는 훈련 과정을 노리는 교사 데이터 독살(Training Set Poisoning)이 있음


Ø 이미지 인식 모델의 개발에는 일반적으로 인간이 식별한 피사체 정보의 태그가 붙은 교사 데이터(트레이닝 세트, Training Set)를 사용함


Ø 이 교사 데이터에 잘못된 태그를 부여한 이미지를 섞음으로써 피사체를 잘못 인식하는 이미지 인식 모델이 만들어지도록 하는 것이 교사 데이터 독살 기법임


Ø 이 때 입력되는 이미지 데이터에는 잘못된 태그가 붙여질 뿐만 아니라 이미지 인식 모델을 속이기 위한 노이즈도 함께 부여됨


Ø 이언 굿펠로우는 최근 멀웨어 검출 엔진은 기계학습 기반으로 개발되고 있는데, 멀웨어를 개발하는 해커 집단이 보안 소프트웨어 개발회사의 교사 데이터에 잘못된 데이터가 섞이게 함으로써 멀웨어를 감지 할 수 없게 하는 공격이 있을 수 있다며 교사 데이터 독살의 예를 들었음


ž 기계학습에 대한 새로운 공격 수법이 속속 발견됨에 따라 그러한 공격으로부터 AI를 방어하는 기술의 개발도 진행되고 있음


Ø 구글은 적대적 사례 공격을 방어하기 위해 클레버한스(Cleverhans)라는 소프트웨어 라이브러리를 공개하고 있음


Ø 클레버한스는 유사 적대적 사례 공격을 실행할 수 있는 이미지 데이터 세트로, 이미지 인식 모델을 개발하는 연구자는 클레버한스가 제공하는 이미지 데이터를 사용해 자신이 개발한 모델이 적대적 사례 공격에 취약한 지 여부를 확인해 볼 수 있음


Ø 스탠퍼드 대학의 박사 과정에 있는 아디티 라후나탄은 베이런 2017에서 볼록 완화(Convex Relaxations)라는 기술을 이용해 적대적 사례 공격을 방어하는 연구 성과를 발표하였음


Ø 이 기술은 이미지 인식에 사용하는 신경망에 특별한 숨겨진 레이어(음폐층)를 추가하여 노이즈를 추가한 이미지라도 오인식을 하지 않도록 하는 것임


Ø 딥러닝은 최근 빠르게 성장하고 있는 기법인 만큼 보안 측면의 연구가 딥러닝 보급 속도를 따라 잡지 못할 우려가 있는데, 딥러닝과 관련된 소프트웨어 개발자는 보안 정보 수집 및 대책에 놓치고 있는 점이 없는지 다시 한번 확인할 필요가 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

스스로 학습하는 인공지능 GAN, 현재 200여 개 파생기술 연구 중.pdf



[ 요 약 ]


구글의 인공지능(AI) 연구 부문인 구글 브레인의 이언 굿펠로우가 2014년 발표한 GAN(Generative Adversarial Networks)은 최근 10년간 AI 연구에서 가장 뛰어난 성과로 평가받고 있으며현재 약 200여 개의 변형된 기술들이 연구되고 있음. GAN은 딥러닝과 달리 인간의 개입 없이도 그리고 학습할 데이터가 없어도 신경망 스스로 학습해 나갈 수 있음을 보여주고 있다는 점에서 큰 기대를 받고 있으며그 잠재력만큼 동시에 큰 위험도 내포하고 있어 우려의 목소리도 높아지고 있음



[ 본 문 ]


ž 알파고 이후 인공지능(AI)이 대체할 수 없는 창의성을 키워야 한다는 주장이 더욱 커졌지만, 기실 알파고 쇼크의 본질은 창작도 AI가 인간보다 잘 할 수 있음을 보여준 데 있음


Ø 지나 10월 알파고를 개발한 딥마인드(DeepMind)인간의 지식 없이 바둑 게임 정복하기라는 논문을 발표하며, 새롭게 알파고 제로(Zero)를 소개하였음


Ø 제로라는 코드네임이 붙은 이유는, 이전 버전의 알파고 개발에서는 최초 학습 데이터로 사람의 기보 약 16만 건을 사용한 반면, 알파고 제로는 사람의 기보나 바둑에 대한 기본 규칙을 전혀 입력하지 않고 AI 스스로 바둑을 두면서 실력을 배양하도록 했기 때문


Ø 논문에 따르면 알파고 제로는 72시간 만에 이세돌을 꺾은 알파고 리 버전을 넘어섰고, 4개월 후에는 커제를 꺾은 알파고 마스터 버전을 넘어섰다고 함.


Ø 기존 AI가 방대한 데이터 분석과 강화학습 등을 통해 인간의 지혜를 배우는 데 초점을 두고 인간이 이미 잘 할 수 있는 것들을 자동화는 수준이었다면, 알파고 제로는 인간 전문가의 개입이나 인간의 관점 입력 없이 이루어졌다는 데 중대한 함의가 있음


Ø 알파고 제로의 바둑을 보면서 바둑계에서 나온 반응은 그래도 사람이 수천 년 동안 발전시켜 온 소위 바둑의 정석이란 것이 틀리지 않았음이 확인되어 다행이다라는 것이었는데, 최소한 바둑계에서는 이제 아무도 AI를 그저 엄청난 속도로 연산을 하는 기계로만 바라보지 않음


ž 실제 디자인, 회화, 음악, 문학, 영화 등 예술과 창작 영역에 AI의 침투 소식은 이제 더 이상 낯설지 않은데, 이들 소식에서 언급되는 AI는 수십 가지로 변형되고 있는 GAN 기술임


Ø 지난 5엔비디아 GTC 2017 컨퍼런스에서 구글 리서치의 이언 굿펠로우는 청중들에게 각양각색의 고양이 사진을 보여주며, 이중 실제 고양이 사진이 아닌 AI가 임의로 합성해 낸 이미지를 찾아보라고 질문을 던졌음


Ø 청중들은 좀처럼 찾아낼 수 없었는데, 사실 그 사진들 중 실제 고양이 사진은 단 한 장도 없었고 모두 AI가 무작위로 합성해 낸 것이었으며, 사람들은 진짜 사진과 가짜 사진의 구분이 무너지고 있다며 감탄과 탄식을 동시에 쏟아 냈음


<자료> NVIDA


[그림 1] GAN을 개발한 이언 굿펠로우


Ø 고양이 사진 합성에 사용된 인공지능 기술은 생성적 대립쌍 신경망(GAN, Generative Adversarial Network)이라 불리는 것인데, 이언 굿펠로우가 지난 2014년에 논문을 통해 발표했을 때 컴퓨터 사이언스 학계에서 찬사가 쏟아졌음


Ø 딥러닝의 창시자로 불리는 제프리 힌튼 교수는 (GAN)에 대해 최근 10년 간 가장 매력적인 이론이라 평가했는데, 인간의 가이드라인에 따라 수동적으로 학습하는 기존 AI와 달리 능동적으로 학습하고 행동하는 AI 개발을 위한 토대가 될 것이라 보았기 때문임


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크, 즉 이미지를 만드는 생성자(Generator)와 이미지가 진짜인지 가짜인지 감별하는 감식자(Discriminator)를 서로 경쟁시켜 생성자가 감별자가 구분하기 어려운 진짜 같은 가짜를 만들게 하는 것임


Ø 2014년 이후 매주 새로운 갠(GAN) 논문들이 쏟아지고 있으며 최근에는 190편 이상이 보고되고 있는데, 전문가들도 모두 추적하기 힘들 정도로 다양한 응용기법들이 등장하고 있음


Ø 그 이름도 다양해 DCGAN, SRGAN, StackGAN, 3D-GAN, CycleGAN 200여 개의 서로 다른 기법이 GAN으로부터 개발되고 있어 GAN 기술은 앞으로 더욱 발전속도가 가속화될 전망


ž 가장 대표적인 GAN 기법은 DCGAN(Deep Convolutional Generative Adversarial Networks)으로로 엔비디아는 이를 이용해 유명 연예인의 이미지를 생성하는 기술을 공개하였음


Ø 엔비디아의 DCGAN은 유명 연예인뿐만 아니라 침실, 화분, , 소파, 버스 등 어떤 객체라도 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주었음



Ø DCGAN에서 생성자(Generator)는 매개변수에서 원래 이미지를 찾아 처리하는 디컨볼루션 네트워크(De-Convolution Network)로 구성되며, 입력된 노이즈(랜덤 신호)로부터 이미지를 생성함


<자료> Amazon.


[그림 2] DCGAN을 이루는 생성자와 감식자


Ø 감식자(Discriminator)는 매개별수를 응축 처리하는 컨볼루션 네트워크(Convolution Network)로 구성되며, 여기에 위조 이미지(Fake) 또는 실제 이미지(Real)을 입력함


Ø 감식자는 입력된 이미지를 처리하고 그것이 위조(Fake)인지 또는 실제(Real)인지 여부를 로지스틱 회귀분석법으로 판정하며, 이 과정에서 감식자가 역전파 알고리즘(Backpropagation)으로 진짜와 가짜의 차이값(Gradient)을 얻게 됨


Ø 이 차이값을 다시 생성자에 입력하여 진짜와 똑 같은 가짜를 생성하는 기술을 향상시키는데, 양측이 모두 향상되는 구조로 이 프로세스를 몇 번이고 되풀이 하여 감식자가 구분할 수 없는 진짜 같은 가짜 이미지를 생성하게 됨


Ø DCGAN의 생성자는 가짜 이미지를 생성할 뿐만 아니라 생성된 이미지를 연산 조작하는 기능을 가지고 있는데, 예를 들어 안경을 쓴 남자 - 안경을 쓰지 않은 남자 + 안경을 쓰지 않은 여자 = 안경을 쓴 여자와 같은 연산을 처리함


<자료> Radford et al.


[그림 3] DCGAN 생성자의 이미지 연산 조작


Ø 연산의 결과 안경 쓴 여성의 이미지를 9개 생성하는데, 맨 중앙 이미지가 구하려는 답으로 주위의 8개 이미지를 외삽법(extrapolation)으로 추론하여 중앙의 이미지를 생성한 것이며, 이런 연산 조작 기법을 이용하면 금발을 흑발로 바꿀 수도 있음


Ø 외삽법이란 어떤 주어진 구간의 밖에 존재하는 값을 추정하는 것으로 보외법(補外法 )이라고도 하며, 반대로 주어진 구간 내에 존재할 수 있는 값을 추정하는 것은 보간법(補間法)이라고 함


ž 회화 그림 관련 응용프로그램에 적용되고 있는 SRGAN(Super-Resolution Generative Adversarial Networks)은 저해상도 이미지를 고해상도 이미지로 변환하는 기법임


<자료> Ledig et al.


[그림 4] SRGAN으로 해상도 높이기


Ø [그림 4]의 맨 오른쪽이 원본 이미지인데, 예를 들어 이 이미지의 해상도를 4배로 늘리는 작업을 한다고 할 때 다양한 방법으로 시도가 가능함


Ø 맨 왼쪽 이미지는 기존에 주로 많이 사용하던 바이큐빅(bicubic)이라는 2차원 외삽법에 의해 해상도를 높인 것임


Ø 왼쪽에서 두번째는 이미지 수준을 예측하는 심층 레지듀얼 네트워크(Deep Residual Network)로서 딥러닝의 손실함수인 평균제곱오차(Mean Squared Error)에 최적화 되어 있는 SRResNet 기법을 이용해 해상도를 높인 것임


Ø 왼쪽에서 세 번째가 SRGAN으로 생성한 이미지인데, 물리적으로는 손실 압축에서 화질 손실 정보를 수치로 표현한 최대 신호 대비 잡음비(peak signal-to-noise ratio)가 높아 노이즈가 있지만, 외견상 구조적 유사성(Structural Similarity)는 원본 이미지에 가장 가까움


Ø SRGAN 기법은 이미지 초해상도(Image Super-Resolution)라고도 불리며 저해상도 이미지를 8K 모니터 등 고해상도 디스플레이에 표시하는 기술로서 주목받고 있음


ž 스택GAN(StackGAN, Stacked Generative Adversarial Networks)는 입력된 문장과 단어를 해석해 이미지를 생성하는 인공지능 기법임


Ø 예를 들어, 이 새는 파란색에 흰색이 섞인 짧은 부리를 가지고 있다라는 텍스트를 입력하면 StackGAN이 이를 이해하여 그에 맞는 이미지를 생성함


<자료> Zhang et al.


[그림 5] StackGAN


Ø GAN이 생성자와 감식자의 대립 네트워크를 생성하듯, StackGAN은 저해상도 이미지를 생성하는 Stage-I과 고해상도 이미지를 생성하는 Stage-II 2단계 네트워크 구성을 갖추고 있음


Ø DCGAN과 마찬가지로 StackGAN에서 생성된 이미지는 실제 조류가 아닌 StackGAN이 상상으로 생성한 것이며, 사진처럼 보이지만 그러한 새는 세상에 존재하지 않음


ž 3D-GANMIT AI 연구팀이 공개한 입체 모델 생성 네트워크로 가령 가구 사진을 통해 교육시키면 3D-GAN은 가구를 3차원으로 그릴 수 있게 됨


Ø 연구팀의 논문을 보면 이케아의 가구 사진을 3D-GAN에 입력하면 그 가구를 3D로 묘사하는데, 입력된 사진은 가구 전체를 담고 있지 않지만 3D-GAN은 이것을 상상에서 보충하여 3D 이미지를 생성해 내고 있음


Ø 3D-GAN 역시 3D 모델 이미지를 연산 조작할 수 있는데, 가령 선반 있는 낮은 테이블 - 선반 없는 높은 테이블 + 높은 테이블 = 선반이 있는 높은 테이블'과 같은 연산을 수행해 이미지를 생성함


<자료> Wu et al.


[그림 6] 3D-GAN을 이용한 3D 이미지 생성


Ø [그림 6]3D-GAN이 학습한 성과를 가시적으로 보여주기 위한 것이며, GAN이 학습한 성과를 매개 변수로 네트워크에 저장하는 것을 실제로 볼 수는 없음


Ø MIT는 현재 숨겨진 영역(Latent Space)의 매개 변수를 출력하는 3D-GAN의 학습 메커니즘을 검증하기 위한 연구를 수행하고 있음.


ž 사이클GAN(CycleGAN)은 인공지능이 자율적으로 학습하여 이미지의 스타일을 다른 스타일로 변환시킬 수 있는 기술임


Ø 입력된 이미지의 스타일을 다른 스타일로 변환하는 방법을 일반적으로 스타일 변환(Style Transfer)이라고 하는데, 이미지 사이의 스타일을 매핑하기 위해 최근 들어 심층신경망을 이용하는 경우가 많음


Ø 가령 심층신경망이 화가의 스타일을 습득하여 그 화풍으로 그림을 그리는 기술이 다수 발표되고 있는데, 사진을 입력하면 AI가 이를 모네 스타일 혹은 피카소 스타일의 유화로 변환해 주는 애플리케이션들이 대표적임


Ø 그러나 이 방식은 화가의 작품이나 풍경 사진 데이터 중 어느 한쪽 혹은 양쪽의 데이터가 거의 없는 경우, 작품과 사진이 짝을 짓게 하는 교육(Paired Training)을 어떻게 실행할 수 있을 것인가가 큰 과제가 됨


Ø 이에 비해 사이클GAN(Cycle-Consistent Adversarial Networks) 기술은 쌍을 이루는 교육 데이터가 필요 없는, 즉 작품-사진의 쌍을 지을 필요 없이, 모네의 유화나 풍경 사진을 각각 독자적으로 사용하여 네트워크를 교육시키는 짝 지우지 않는 교육(Unpaired Training) 기법임


Ø 교육된 사이클GAN은 예를 들어 모네의 작품을 입력하면 이를 사진으로 변환하거나 반대로 사진을 입력하면 모네의 유화로 변환시킬 수 있음


Ø 또한 얼룩말의 사진을 말의 사진으로, 말의 사진을 얼룩말의 사진으로 변환할 수 있는데 이를 객체 변형(object transfiguration)이라 하며, 또한 산의 여름 사진을 입력하면 눈 쌓인 겨울 산의 사진으로 변환할 수도 있는데 이는 계절 변환(season transfer)이라고 함


<자료> Zhang et al.


[그림 7] CycleGAN을 이용한 스타일 변환


Ø 사이클GAN은 네트워크가 자율적으로 학습하는 아키텍처로서 교사 없는 학습(Unsupervised Learning)으로 이어질 수 있는 기법으로 기대되고 있음


Ø 사이클GAN 기법은 버클리 인공지능 연구실이 주축이 되어 개발하고 있는데, 주 책임자인 중국인 주준이엔 외에 한국인 박사과정 학생 박태성이 참여하고 있기도 함


ž 디스코GAN(DiscoGAN)은 인공지능이 자율적으로 서로 다른 객체 그룹 사이의 특성을 파악하여 양자 사이의 관계를 파악할 수 있는 기술임


Ø 사람은 하나의 그룹과 다른 그룹의 관계, 예를 들어 가방 그룹과 신발 그룹의 관계를 경험적 혹은 직관적으로 파악할 수 있는데, 신경망이 이 관계를 파악하도록 하기 위해서는 태그가 붙어 있는 이미지를 대량으로 입력해 알고리즘을 교육할 필요가 있음


Ø 이에 비해 디스코GAN은 알고리즘이 양자의 관계를 자율적으로 이해하는데, 먼저 디스코GAN에 가방과 신발이라는 두 그룹의 이미지를 각각 입력해 각자의 특성을 가르치고 나면 이미지에 태그(가방이나 신발 등의 이름)가 붙지 않아도 알고리즘이 양자의 관계를 스스로 파악함


Ø 교육된 디스코GAN을 예를 들면, 가방 이미지를 입력하면 신발 이미지를 생성하거나, 파란색 가방 이미지에서 파란색 신발 이미지를 생성하고, 남성의 사진을 입력하면 여성의 이미지를 생성 할 수도 있음


<자료> Kim et al.


[그림 8] DiscoGAN을 이용한 스타일 변환


Ø 디스코GAN 역시 사이클GAN과 마찬가지로 양자의 관계를 정의한 짝 지운 데이터(Paired Data)가 불필요하고 각자의 특성 이미지만 교육시키면 네트워크가 자율적으로 학습하는 구조이기 때문에, 교사 없는 학습의 길을 여는 기술로 주목받고 있음


ž GAN은 기초 연구뿐만 아니라 비즈니스에 응용도 시작되고 있는데, 아마존이 GAN을 이용한 패션 사업의 구상을 밝힌 것이 대표적임


Ø 아마존은 산하 연구소인 Lab126에서 GAN의 개발을 진행하고 있는데, GAN이 유행 중인 패션을 통해 스스로 스타일을 학습하고 자신만의 패션을 생성하도록 하고 있는데, GAN이 패션 디자이너가 되어 인간을 대신해 새로운 디자인을 창조하게 하는 것임



Ø 패션 트렌드는 페이스북이나 인스타그램 등에 올라온 사진으로 학습하는데, 이 사진들을 GAN에 입력하면 GAN이 트렌드를 배워 독자적인 패션을 디자인하게 됨


Ø 또한 아마존은 인공지능 스피커 에코의 변형 버전인 에코 룩(Echo Look)을 통해 이용자를 촬영한 다음 패션에 대한 조언을 하는 서비스를 제공하고 있음


Ø 아마존은 에코 룩을 통해 이용자의 패션 취향을 이해한 다음, GAN이 개인에 특화된 디자인을 만들게 하는 계획을 갖고 있는데, GA이 생성한 디자인으로 만든 주문형 옷(On-Demand Clothing)이 이용자에게 배달되게 하는 사업 구조임


<자료> Amazon


[그림 9] GAN을 이용한 아마존의 에코 룩


ž 이처럼 200여 개에 달하는 GAN의 변형 기술 연구가 폭넓게 진행되고 있는 이유는 GAN이 현재 딥러닝이 안고 있는 많은 문제를 해결해 줄 강력한 무기를 제고할 수 있기 때문임


Ø 특히 교사 없는 학습(Unsupervised Learning)과 태그 없는 데이터(Unlabeled Data) 교육 분야에서 연구를 크게 진전시킬 단서를 제공할 것으로 전망되고 있는데, 사이클CAN이나 디스코GAN이 그러한 가능성을 잘 보여주고 있음


Ø 또한 엔비디아의 연구팀 역시 DCGAN 기술을 이용해 촬영한 것처럼 선명한 가상의 유명 연예인 이미지를 생성하고 있지만, 신경망 교육에는 태그가 붙어 있지 않은 연예인 사진을 사용하는 등 알고리즘이 자율적으로 배우는 기술은 빠르게 진화하고 있음


Ø 과학자들은 상상하는 모습을 모두 이미지로 만들어 낼 수 있는 이런 시스템들을 보며 인공지능 신경망이 세상을 해석하는 통찰력을 제공해 줄 것이라 기대하고 있음


Ø 비록 인공지능이 어떤 원리로 이미지를 저장하고 해석하는지 명확하지는 않더라도, 바둑 기사들이 알파고가 바둑의 본질을 보다 잘 이해한다고 인정하듯이, 과학자들 역시 컴퓨터가 생성해 내는 이미지가 실제 세상에서도 통할 수 있다고 생각하는 것임


ž GAN에 대한 기대가 높아지는 만큼 그 위험성에 대한 지적도 나오고 있는데, AI 뿐만 아니라 모든 기술이 그렇듯 이 기술을 어떻게 사용할 것인지는 결국 인간이 결정에 달려 있음


Ø 페이스북의 AI 연구소장인 얀 르쿤은 GAN과 그 파생 기술들은 지난 10년의 기계학습 연구에서 가장 뛰어난 성과라고 높이 평가하고 있음


Ø 한편, GAN의 위험성을 지적하는 목소리도 높아지고 있는데, 지금까지도 페이스북 가짜 사진이 문제가 됐지만 GAN의 등장으로 그 위험성이 더욱 높아짐에 따라 이제 뉴스에 게재되는 사진이나 비디오를 신뢰할 수 있는가 하는 질문이 제기되고 있음


Ø 소셜 미디어에 게재된 이미지가 증거 사진으로 사용되는 경우가 많지만, 이제 앞으로 무엇이 진실인지 알 수 없는 시대가 되면 그럴 수 있겠느냐는 것이며, 수년 내로 GAN을 통해 진짜 같은 가짜 비디오를 생성할 수 있게 된다면 혼란은 더욱 가중될 것이라는 경고임


Ø 이는 엄밀한 근거에 기반을 두어야 하는 과학에서 더욱 불거질 수 있는 문제인데, 그럴듯한 이미지나 동영상과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없는 위험이 생긴 것임


Ø 삶을 풍요롭게 하는 데 사용될 지 아니면 삶을 위험에 빠뜨리게 될 지, AI가 그러하듯 GAN이라는 혁신 기술 역시 양날의 검을 가지고 있다는 점을 항시 염두에 두고 바라볼 필요가 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1823호(2017. 11. 22. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

현실 같은 가짜를 상상으로 만들어 내는 새로운 인공지능 &lsquo;GAN&rsquo;.pdf



[ 요 약 ]


엔비디아의 연구팀은 신경망이 유명 연예인(celebrity, 셀럽)의 이미지를 생성하는 기술을 공개했는데생성된 이미지는 실제 인물에 기반을 둔 것이 아니라 인공지능(AI)이 유명인의 개념을 이해하고 상상으로 그린 ​​것이며유명인 이외에도 모든 객체의 개념을 이해한 후 사람의 개입 없이 AI가 실제와 똑같이 그려낼 수 있음을 보여주었음생성적 대립쌍 신경망(Generative Adversarial Network, GAN)이라 불리는 이 기술은 2014년 처음 등장한 이래 가장 주목 받는 AI 연구 주제로 부상하였음



[ 본 문 ] 


ž 최근 인공지능(AI) 컴퓨팅 분야 연구에 적극 나서고 있는 엔비디아(Nvidia)GTC 유럽 2017 컨퍼런스에서 딥러닝 기반 응용프로그램 빈센트(Vincent) AI의 공개 시연을 진행


Ø 빈센트 AI는 이용자가 스타일러스 입력 펜을 사용해 간단히 스케치한 그림을 실시간으로 유화나 네온 색상의 팝아트 등 7가지 예술작품 스타일로 변환시켜 주는 응용프로그램으로 캠브리지 컨설턴트(Cambridge Consultants)라는 기업이 엔비디아 기술을 이용해 제작한 것임


<자료> NVIDA


[그림 1] 빈센트 AI로 변환시킨 스케치


Ø 엔비디아의 젠슨 황 CEO는 기조연설 도중 무대에서 내려와 스타일러스를 직접 들고 엔비디아 로고와 사람의 얼굴을 그렸으며, 이것이 실시간으로 피카소 풍의 그림으로 변환되자 컨퍼런스에 참석한 청중들의 박수가 터져 나왔음.


Ø 캠브리지 컨설턴트의 AI 연구소인 디지털 그린하우스(Digital Greenhouse)에서 5명으로 구성된 연구팀은 두 달 만에 빈센트 AI의 데모를 구현할 수 있었는데, 이번 데모는 엔비디아의 딥러닝 전용 수퍼컴퓨터인 DGX 시스템에서 트레이닝을 거쳐 구현되었음


Ø 기존의 딥러닝 알고리즘이 방대한 양의 데이터를 소화할 수 있게 됨으로써 놀라운 성과를 달성했다며, 빈센트 AI에 적용된 인공지능 기법은 두 개의 신경망을 이용해 이전에 비해 훨씬 더 적은 표본으로도 응용프로그램을 생성할 수 있었다는 점에서 주목받고 있음


Ø 엔비디아 측에 따르면, 알파고의 등장에 많은 바둑 기사들이 호응을 보인 것처럼 의외로 많은 예술가들이 빈센트 AI 에 상당한 호감을 보이고 있으며, 빈센트 AI를 통해 예술이 무엇인지, 예술에 대한 자신들의 지식이 어느 정도인지 알게 될 것이라 기대하고 있다고 함


ž 빈센트 AI의 놀라운 이미지 전환 기술 뒤에는 정밀한 튜닝 작업을 거친 GAN(Generative Adversarial Network), 생성적 대립쌍 신경망이라는 최신 AI 기술이 자리하고 있음


Ø 비영리 인공지능 연구단체인 오픈AI의 컴퓨터 과학자인 이언 굿펠로우가 창안한 (GAN) 기술은 최근 인공지능 기반 이미지 전환기술로 크게 각광받고 있으며, 굿펠로우는 연구 논문 발표 후 구글의 인공지능 연구부서인 구글 브레인으로 자리를 옮겨 연구를 지속하고 있음


Ø 이언 굿펠로우에 의해 2014년에 처음 등장한 이 기법과 관련한 논문 수가 기하급수적으로 증가해서 최근에는 190편 이상이 학계에 보고되고 있는데, 페이스북의 AI 연구를 이끌고 있는 얀 르쿤 교수는 갠(GAN)을 가장 중요한 기술로 꼽고 있음


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크를 만들고, 상호 대립 과정에서 훈련 목표를 자동으로 생성하도록 학습시키는 모델임


Ø 통상 기계학습이 사람이 태그를 달아주는 방식으로 학습결과가 맞았는지 확인해주는 데 반해 갠 기법은 사람의 개입 없이 컴퓨터가 스스로 목표 이미지와 비교해서 생성한 이미지를 반복해서 평가하고 수정하는 과정 속에서 데이터 자체에서 지식을 얻는 비지도 학습형 알고리즘임



Ø 최근 이미지 구별이나 음성 인식 등에 활용되는 인공지능 기술인 CNN이나 RNN지도 학습형 알고리즘으로 이미지나 음성을 구별하고 인식할 뿐 만들어 내지는 못하는데, GAN은 생성 모델을 통해 직접 이미지와 음성을 만들어 낸다는 것이 큰 차이점임


Ø 엔비디아의 연구팀이 개발한 기술 역시 GAN을 이용한 것으로, 엔비디아는 논문을 통해 신경망이 유명인(celebrity, 셀럽)의 이미지를 자동으로 생성하는 기술을 공개했는데, 이 이미지는 실제 사람이 아닌 AI유명인이라는 개념을 이해하고 상상으로 생성해 낸 것임


<자료> Karras et al.


[그림 2] GAN이 생성한 유명인 이미지


Ø GAN으로 그린 가상의 유명인은 어디선가 본 듯한 것처럼 보이지만 실존 인물은 아니며, 구글에서 이미지 검색을 해도 해당 인물이 발견되지는 않는데, 한마디로 GAN은 진짜 같은 가짜를 생성해 내는 기술이라고도 할 수 있음


Ø 엔비디아가 발표한 논문은 GAN이 유명 연예인 외에도 침실, 화분, , 소파, 버스 등의 객체를 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주고 있음


ž 생성적 대립쌍이라는 명칭이 붙은 이유는, GAN이 서로 경쟁하는 두 개의 신경망(dueling neural network) 구조를 통해 성능을 개선하고 딥러닝 모델을 진화시키기 때문


Ø GAN의 구조는 일반적으로 감식자(Discriminator)생성자(Generator)라는 두 개 층의 신경망으로 구성되는데, 양 측이 서로 충돌하면서 발생하는 차이점을 수정해 나가며 궁극의 균형점, 즉 진짜 같은 가짜의 생성에 이르게 됨



Ø 생성 네트워크는 진짜와 똑 같은 가짜 이미지를 생성하는 역할을 담당하는데, 생성자에 노이즈(랜덤 신호)가 입력되면 이를 토대로 가짜 이미지를 생성함


Ø 감식자는 입력된 데이터가 진짜인지 가짜인지를 판정하는데, 생성자가 만들어 낸 가짜(Fake) 이미지와 샘플 데이터세트에서 추출된 실제(Real) 이미지가 감식자에 입력되면 Fake 또는 Real 여부를 판정하게 됨


Ø 이 방식은 게임이론 중 내쉬 균형(Nash Equilibrium), 즉 합리적 판단을 하는 상호 간의 게임이론에 따라 수학적으로 균형점을 찾는다는 이론이 적용된 것임


Ø 한 마디로 GAN은 생성자와 감식자가 대치하며, 매우 성공적인 가짜를 생성해내는 인공지능 기술이라 정의할 수 있음


<자료> Anton Karazeev


[그림 3] 대립쌍을 이루는 GAN의 작동 프로세스


ž GAN의 개념을 주창한 이언 굿펠로우는 대립쌍을 설명하면서 생성자와 감식자의 관계를 위조 지폐범과 경찰의 대결로 비유하였음


Ø 화폐 위조범(생성자 G)이 새로운 위폐를 만들어내면 경찰이나 은행원(감식자 D)은 이를 간파해야 하고, 위조범들이 이를 피하기 위해 더 그럴 듯한 위조 지폐를 만들면 경찰관들도 동시에 감식 기술을 향상시키는데, 이 과정을 통해 위조 화폐가 더욱 정교해진다는 것


Ø 즉 위폐범의 위조 기술과 경찰의 감식 기술이 서로를 자극하면서 발전을 거듭하면, 결국 위조화폐는 진짜 화폐와 같은 수준의 내쉬 균형점에 이르게 된다는 것으로, 현실에서는 감식자가 위폐범을 이겨야 하나 GAN에서는 위폐범의 승리가 목표임


Ø 이언 굿펠로우는 대립쌍을 설명하면서 수학 같이 명확한 답이 없지만 확률적으로 목표와 근사한 지를 끊임없이 확인하면서 이미지를 변환해 가면 결국엔 위폐일 확률과 진짜일 화폐일 확률이 각기 0.5가 된다고 표현하였음


Ø 인간과 AI가 대결과 공존을 해야 하는 시대에 인간이 우위를 점할 수 있는 영역으로 흔히 창의성과 예술 분야가 거론되지만, 알파고 등장에서 보듯 현실은 창의성에서도 AI의 우월성이 드러나는데, 위폐범의 승리를 목표로 하는 GAN 같은 기술의 등장이 그 원인이라 할 수 있음


ž 이처럼 GAN은 매우 성공적인 가짜를 생성할 수 있으나 기술적으로 몇 가지 과제가 있었는데, 엔비디아는 특수 구조를 개발하여 과제를 해결해 가고 있음


Ø GAN의 과제는 알고리즘의 교육에 장시간 연산이 필요하다는 점과 알고리즘의 작동이 불안정하다는 점이었는데, 엔비디아는 서서히 이미지의 해상도를 높여 나가는 구조의 네트워크를 개발하여 문제를 해결하였음



Ø 엔비디아가 개발한 GAN의 특징은 학습 초기 단계에서는 낮은 해상도(4×4)의 네트워크를 사용하고, 학습이 진행되면서 점차 해상도를 올려 최종적으로 고해상도(1024×1024)의 네트워크를 사용해 선명한 이미지를 생성한다는 점

Ø 엔비디아의 GAN이 순차적으로 생성한 이미지와 생성에 소요된 시간을 살펴보면, GAN에 학습을 시작한 지 4시간 33분이 경과한 시점에 저해상도(16×16)의 이미지가 생성되어 사람으로 보이는 듯한 형상이 나타났음


Ø 1 6시간이 경과한 시점에서 나타난 중간 해상도(64×64)의 이미지에서는 얼굴 윤곽이 뚜렷해졌으며, 5 12시간이 경과한 시점에 나타난 고해상도(256×256) 이미지에서는 인물이 부드럽게 그려져 있지만 세부적으로 보면 군데군데 일그러진 곳이 있음


Ø 19 4시간이 경과한 시점에 나타난 초고해상도(1024×1024) 이미지에서는 리얼한 인물이 완성되는데, 이처럼 엔비디아의 GAN은 감식자(Discriminator)의 스킬을 검증하면서 서서히 해상도를 올려나가는 방식을 통해 알고리즘 교육 시간을 약 20일로 단축하였음


<자료> Karras et al.


[그림 4] 점증적으로 해상도를 높여 나가는 엔비디아의 GAN


ž 엔비디아가 GAN의 성능을 개선했지만, 고해상도의 이미지를 생성하려면 대규모 컴퓨팅 리소스를 필요로 하는 등 아직 연구를 통해 개선해야 할 것들이 많이 남아 있음


Ø GAN에서 선명한 이미지를 생성하기 위해서는 대규모 컴퓨팅 자원이 필요한데, 엔비디아의 경우 이 연구를 위해 NVIDIA Tesla P100 GPU(4.7 TFLOPS)를 사용하였음


Ø GAN의 알고리즘 학습에는 약 20일 정도가 걸렸는데, 많이 개선된 것이지만 고해상도의 이미지를 생성하려면 여전히 많은 처리 시간이 필요하며, 결국 완벽한 가짜 이미지 생성에 아직까지는 많은 비용이 소요됨을 의미함


Ø 또한 GAN으로 그려낼 수 있는 대상은 GAN이 학습을 마친 분야로 제한되기 때문에 현재는 유명 연예인 등 일부에 한정되는데, GAN의 교육 시간을 상당히 단축시키거나 혹은 폭넓은 분야를 커버하게 하려면 추가 연구가 필요한 상황임


ž GAN은 양날의 검이 될 위험성이 존재하지만, 현재 AI 기술 개발의 가장 큰 걸림돌을 해결할 단서가 될 수 있다는 점에서 AI 분야의 큰 돌파구가 될 수 있는 연구 주제임


Ø GAN은 현재 딥러닝이 안고 있는 많은 문제를 해결할 수 있는 비장의 카드가 될 가능성이 있는데, 비지도 학습(Unsupervised Learning)과 라벨이 없는 데이터(태그 없는 교육 자료) 분야의 연구를 크게 진전시킬 단서가 될 것으로 전망되고 있기 때문


Ø 이는 현재 AI 개발의 가장 큰 걸림돌이 되고 있는 문제, 즉 알고리즘을 교육하기 위해 대량의 태그 데이터가 필요하다는 문제의 해결책이 될 수 있음을 의미하며 이것이 개발자들이 GAN에 주목하는 가장 큰 이유임


Ø 반면 GAN에 대한 우려도 그만큼 크게 대두되고 있는데, GAN이 가상으로 그려낸 이미지는 사진 촬영을 한 연예인이라 해도 의심의 여지가 없으며, 실제와 똑 같은 가짜 앞에서 양자의 진위를 판정할 수 있는 사람은 아무도 없음


Ø 소셜 미디어에서 가짜 뉴스가 문제가 되고 있지만 GAN의 등장으로 이제는 가짜 사진이 사태를 더욱 복잡하게 할 가능성이 커졌으며, 인스타그램에 올라오는 사진들 역시 GAN이 만들어 낼 시대가 도래하고 있음


Ø 전문가들이라고 이런 문제를 비껴나갈 수 있는 것은 아니어서, 천문학자들은 이제 우주의 이미지를 직접 우주 공간에 나가서 사진 찍듯이 그려내고 있으며, 화산 폭발 장면을 실감나는 사진으로 표현하고 있음


Ø 또한 인체의 DNA가 어떻게 작동하는지 또 단백질이 어떻게 반응하는지를 직접 촬영한 사진처럼 표현하기도 하는데, 그럴듯한 이미지들과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없음


Ø GAN 의 등장은 현실과 가상현실 사이에서 진위의 구분이 무의미해지는 시대의 도래를 시사하며, 양날의 검이 될 수 있는 GAN의 활용 범위와 방안을 놓고 AI 개발자 커뮤니티뿐 아니라 일반인 사이에서도 다양한 논쟁이 벌어질 것으로 보임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1822호(2017. 11. 15. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

사람 중심으로 상황에 맞게 변하는 인공지능 횡단보도 &lsquo;스탈링 크로싱&rsquo;.pdf



ž 영국의 스타트업 엄브렐리움(Umbrellium)은 차량 중심으로 만들어 진 기존 횡단보도 대신 상황에 맞게 횡단보도가 가변적으로 변하는 지능형 횡단보도를 개발하고 있음


Ø 엄브렐리움은 도로 곳곳에 흰색 도료로 칠해진 횡단보도 대신 도로를 건너는 사람이나 차량 통행량에 따라 LED를 이용해 가변적으로 표시되는 횡단보도 스탈링 크로싱(Starling Crossing)을 개발하고 있음


Ø 스탈링(Starling)행동신호 적응형 반응 학습((STigmergic Adaptive Responsive LearnING)의 줄임 말인데, 스티그머지(Stigmergy)는 개미와 같은 사회적 곤충의 독특한 행동방식으로, 개체는 각기 다른 행동을 취하지만 결과적으로 집단 전체의 목표를 달성케 만드는 메커니즘을 말함


Ø 스탈링 크로싱은 보행자 안전은 우선 순위에 놓고 보행자의 잠재적 위험 요소를 파악해 신호를 변경하는 반응형 도로 시스템으로, 보행자 교차로의 패턴, 레이아웃, 구성, 크기와 방향을 상황에 맞게 변경함


Ø 사람이 길을 건널 수 있는 모든 지역의 노면은 카메라로 모니터링 되며, 노면에는 주야간 상관없이 모든 각도에서 볼 수 있는 컴퓨터 제어 LED가 내장되어 있어 상황에 맞는 횡단보도를 구성하게 됨


Ø 예를 들어 도로를 횡단하는 사람이 감지되면 노면에 횡단보도가 표시되고 차량 앞에는 정지선이 표시되며, 더 이상 건너는 사람이 없으면 횡단보도는 사라지고 다시 차선이 노면에 표시됨



<자료> Umbrellium


[그림 1] 보행자 감지에 따라 횡단보도를 가변적으로 표시해 주는 스탈링 크로싱


Ø 저녁 퇴근시간 때나 영화가 끝나서 사람들이 일시적으로 많이 몰려 건너는 사람이 많을 경우에는 노면에 횡단보도의 너비가 넓게 표시되어 모든 보행자들이 횡단보도 안으로 건널 수 있도록 가이드 해 줌




ž 스탈링 크로싱은 사람이 도로 횡단에 신경 쓰지 않아도 고도의 인공지능(AI) 기술을 통해 안전을 보장한다는 점에서 자율주행차의 컨셉과 맞닿아 있다고 할 수 있음


Ø 최근에는 스마트폰을 보면서 무심코 횡단하다 사고를 당하는 경우가 빈번히 발생하고, 운전자가 여러 이유로 보행자를 발견하지 못해 사고가 발생하기도 하는데, 스탈링 크로싱은 인공지능을 통해 이런 사고를 미연에 예방하고자 함


Ø 카메라에서 수집된 영상을 컴퓨터 신경망 학습으로 분석한 뒤, 횡단할 것 같은 사람이 나타났을 때 자동으로 표시를 조정해 사람이 신경 써서 걷는 것보다 더 안전한 환경을 구축하려는 것


Ø 엄브렐리움은 현재 사우스 런던에 실제 도로와 같은 세트를 만들고 스탈링 크로싱의 프로토타입을 테스트하고 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1819호(2017. 10. 25. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

화이트 칼라 업무 생산성 향상 도구 &lsquo;RPA&rsquo;, AI 붐 타고 도입 급증.pdf



[ 요 약 ]


장시간 노동의 억제가 사회적 이슈로 부상하면서또한 저출산 고령화에 따른 노동 인력 감소 문제에 장기적으로 대응할 필요성이 제기되면서 사무 업무의 노동 생산성 향상을 위한 RPA(로보틱 프로세스 자동화도입이 기업의 화두로 떠오르고 있음. RPA는 최근 인공지능(AI) 기술 등과 접목되며 단순 사무업무뿐 아니라 전문 지식에 기반한 고도의 의사결정까지 지원을 목표로 하고 있는데로봇이 그랬던 것처럼 RPA는 사무 현장의 노동 인력 구조에 중대한 변화를 가져올 것으로 예상됨



[ 본 문 ] 


ž 사무직 노동자의 업무를 자동화 해주는 로보틱 프로세스 자동화(Robotic Process Automation, RPA) 도구를 업무처리 방식의 혁신 수단으로 도입하는 기업이 급증하고 있음


<자료> Roboyo


[그림 1] RPA와 기존 업무시스템의 비교


Ø RPA는 사람이 반복적으로 처리하는 업무를 로봇 소프트웨어를 통해 자동화하는 솔루션으로 많은 인력과 시간을 들여야 하는 단순 업무를 획기적으로 줄일 수 있는 시스템임


Ø 로봇이 점차 지능화되고 있기는 하지만 원래 제조 현장에서 로봇의 역할은 단순 반복 업무를 수행하는 것이며, 로봇 같다는 표현은 종종 주어진 일을 지치지 않고 해낸다는 뜻으로 쓰임


Ø RPA에서 로보틱 프로세스란 반복적인 업무 절차라는 뜻에 가까우며, RPA는 실제 물리적인 로봇이나 기계장치가 아니라 소프트웨어를 통해 사무 현장의 반복업무를 자동화하는 것임


Ø 솔루션 벤더들의 주장에 따르면 화이트 칼라의 사무 작업을 RPA로 자동화할 경우 작업 시간을 80% 가량 줄일 수 있다고 하며, 이런 이유로 RPA를 가상 지식 노동자(Digital Employee)로 부를 수 있다고 함


Ø 화이트 칼라의 업무에도 다양한 종류가 있지만 현재 RPA가 주된 대상으로하고 있는 것은 PC로 수행하는 반복적 일상 작업으로, 한 시스템에서 처리한 결과를 다른 시스템으로 입력함으로써 시스템간 연계를 하는 업무가 대표적임


Ø 초기에 RPA는 보험업을 비롯한 금융기관에서 주로 도입이 진행되었는데, 일상적인 대량의 문서 처리 업무가 많아 도입 효과가 좋았기 때문이며, 현재는 금융업 이외에 제조업 등 다양한 산업으로 확산되고 있는 추세임


Ø 시장조사기관 리서치 앤 마켓에 따르면 향후 5년간 RPA 도입이 급증해 2022년 전세계 RPA 시장규모는 50억 달러를 넘어설 것으로 예상됨


ž RPA 자체는 어디까지나 개념일 뿐이며, 기업이 RPA를 도입하려면 RPA 도구가 필요한데, 자체적으로 개발할 수도 있지만 대부분 기업은 벤더들의 RPA 솔루션을 이용하고 있음


Ø RPA 도구의 주요 역할은 대상 업무의 스크립트(Script)실행(Execution)으로 먼저 업무 담당자가 일반적으로 수행하는 PC 작업의 절차를 정의해야 하는데, 이는 RPA 도구에게 지시할 대본(스크립트)을 만드는 과정이라 보면 됨


Ø 스크립트는 가령 웹 브라우저로 특정 사이트에 접속하여 어떤 데이터를 엑셀로 복사하라는 식으로 여러 소프트웨어에 걸치는 것이 보통이며, 스크립트가 완료되면 그 대본에 따라 RPA 도구가 담당자의 작업을 자동으로 실행하게 도고, 스크립트는 필요에 따라 수시 편집도 가능함


Ø 간단히 이해하자면 엑셀 매크로 기능을 여러 소프트웨어에 걸쳐 실행할 수 있다고 생각하면 되고, 시스템 개발에 사용되는 기능 테스트 자동화 도구와 유사하다고 보면 됨


Ø RPA 도구들은 주로 규칙 엔진을 이용하여 스크립트를 자동화 하며 규칙 엔진 외에도 HTML 분석 기술이나 이미지 인식 기술 등도 이용하는데, 요소 기술들이 새롭거나 특이한 것은 아니어서 기존 기술들을 잘 조합하여 저비용으로 고효율을 얻게 해주는 쪽에 가까움


ž 전세계적으로 RPA 도입이 급증하고 있는 이유는 기업의 규모와 업종, 업무 유형을 불문하고 장시간 노동의 억제가 중요한 사화적 이슈로 부상하고 있기 때문임


Ø RPA 도입에 대한 관심은 2015년경부터 유럽의 금융 기관들을 중심으로 높아졌는데, BPO(비즈니스 프로세스 아웃소싱) 사업자들이 위탁 받은 업무를 효율화하기 위해 RPA 도구를 적용하기 시작한 것이 계기가 되었음


Ø 또한 선진국을 중심으로 현재 기업들은 일하는 방식을 바꾸어야 한다는 사회적 압력에 직면하고 있으며 이에 대한 대응이 급선무가 되었는데 그 해결책의 하나로 RPA가 주목 받게 되었음


Ø 우선 일과 노동의 균형(Work-Life Balance)이 강조되며 장시간 노동의 억제가 기업이 외면할 수 없는 주요 사회적 아젠다가 되고 있음


Ø 다른 한편으로 고령화와 저출산에 따른 노동인구 감소와 부족의 문제가 점차 부각되고 있는데, 이는 시간이 흐ㅁ를수록 장기적으로 더욱 악화될 것으로 예상되는 문제이기 때문에 기업들은 생존을 위해서라도 현재와 다른 업무 방식을 고민할 수밖에 없는 상황임


Ø 이런 과제 극복을 위해 주요하게 대두되는 문제가 화이트 칼라의 생산성 향상이기 때문에, 사무 업무의 자동화를 통해 생산성을 향상시켜 주는 RPA의 도입이 적극적으로 검토되고 있음


Ø RPA 소프트웨어는 기업 입장에서 이상적인 노동 자원으로 볼 수 있는데, 로봇이므로 노동시간을 신경 쓸 필요는 없어 야간이든 휴일이든 작업지시를 할 수 있고, 게다가 기계적으로 작업을 확실하게 해내기 때문에 작업 속도와 오류율 면에서 사람보다 나은 성과를 보여주기 때문


Ø 여기에 벤더들의 노력으로 RPA 도구가 더 사용하기 쉽게 된 것도 도입을 가속화하는 요인이 되고 있는데, 인터페이스와 조작 방법이 개선되며 PC 작업을 대체하기 위한 스크립트 작성과 실행이 용이하게 되었음


ž 최근 고조되는 인공지능(AI) 붐도 도입 배경으로 꼽히는데, 벤더들은 RPAAI를 활용한 사무 고도화의 첫 걸음으로 자리매김하며 주목도를 높이고 있음


Ø PC 작업을 자동화하는 RPA는 응용 범위가 넓고, 다른 기술과 제품에 비해 상대적으로 도입하기가 쉽기 때문에, 지금까지 IT화의 대상이 되지 않았던 업무와 IT화를 했을 때 투자 대비 효과가 나오지 않는다고 간주되었던 업무에도 적용할 수 있는 것이 장점임


Ø 투자 대비 효과의 측정이 가능하고 단기간에 투자를 회수할 수 있음이 도입 사례들을 통해 지표로 제시되고 있다는 점도 기업 경영진들의 주목을 끄는 배경이 되고 있음


Ø 또한 최근 AI 붐을 타고 조만간 RPA와 인공지능을 조합한 시스템이 등장할 것이라는 전망이 나오는 것도 RPA 도입 결정에 긍정적인 요인이 되고 있는데, 루틴한 작업뿐만 아니라 중장기적으로 고비용의 전문직 인력이 해오던 고급 의사 결정까지 대행을 맡길 수 있기 때문


Ø 이에 따라 RPA를 도입하려는 기업은 RPA 도구들을 정확히 비교, 평가하고 자신들에게 적합한 도구를 선택하는 것이 매우 중요하게 되었는데, 단순 업무 처리에 그치지 않고 고도의 전문성을 요하는 업무까지 RPA로 처리하게 될 경우 이는 기업의 경쟁력과 직결되는 일이기 때문


ž 기업이 제대로 된 RPA 도구를 선택하려면 사람으로 치면 --에 해당하는 기술 요소들을 잘 이해해야 하는데, 우선 눈에 해당하는 기술 중에는 구조 분석 기술이 가장 중요함


Ø 구조 분석 기술은 RPA 도구가 조작 대상으로 삼는 응용프로그램의 화면들이 어떤 요소로 구성되어 있는지를 해석하는 것으로, 구성 요소에는 메뉴, 입력 영역, 버튼, 선택 항목(라디오 버튼, 드롭다운 리스트) 등이 포함됨


Ø 구조 분석 기술을 사용할 수 있어야 보다 확실하게 조작 대상을 특정 할 수 있게 되는데, 구조를 분석할 수 없는 응용프로그램의 업무를 자동화하려면 작업 대상을 이미지로 인식해야 하고 이럴 경우 작동하는 PC의 해상도 차이 등에 영향을 받기 때문


Ø 어떤 응용프로그램을 구조 분석의 대상으로 할 수 있는지는 RPA 도구에 따라 다르기 때문에 벤더별 차별화 요소가 되며 기업이 벤더의 도구를 선택할 때 중요 포인트가 됨


<자료> UiPath Studio


[그림 2] 웹 페이지 구조 분석 기술


Ø 구조 분석 기술에서는 웹 사이트에서 정보를 추출하기 위해 웹 스크레이프(scrape) 기술을 많이 사용하는데, 이 기술은 가령 웹 페이지로 퍼블리싱 되는 주가 및 부동산 정보 등의 정보를 추출하고 이를 가공·분석하여 보고서를 작성하는 업무를 자동화하는 경우 아주 유용함


Ø RPA 도구가 추출 대상으로 하는 웹 사이트의 정보 중 일부는 표 형식의 데이터로 존재하는 경우도 많은데, 이런 표 형식의 데이터를 그대로 가져오는 구조를 가진 도구들도 있음


Ø RPA 도구의 스크립트 작성은 시나리오 기반으로 이루어지는데, 소프트웨어 로봇의 작업 흐름을 정의한 시나리오 대로 실제 구현이 되게 하기 위해서는 정보의 용이한 취득을 지원하는 구조 분석 기술 요소가 매우 중요함


ž 사람의 눈에 해당하는 기술 요소로 구조 분석 기술을 보완하는 것으로는 이미지 인식 기술과 OCR(광학문자판독) 등이 있음


Ø 이미지의 특징을 분석하여 작업 범위를 특정하는 것이 이미지 인식 기술인데 앞서 말한 것처럼 PC의 해상도를 비롯 RPA의 실행 환경에 따라 작동이 다를 수 있고, 구조 분석 기술에 비해 조작 대상을 특정하는 정확도는 떨어지지만 많은 RPA 도구들이 이미지 인식을 채택하고 있음


Ø RPA 도구가 조작 대상 화면을 이미지로 인식할 수밖에 없는 상황이 있기 때문인데, 가령 원격 데스크톱으로 접속하여 다른 PC의 응용프로그램을 작동시키거나 가상화 기술로 배포된 응용프로그램을 조작하는 등의 경우를 들 수 있는데, 최근에는 이런 방식의 이용 사례가 늘고 있음


Ø OCR 엔진을 포함하고 있는 RPA 도구도 있는데, 원격 데스크톱으로 접속한 화면에서 정보를 검색할 때 이미지 정보를 텍스트화로 변환할 필요가 있는 경우 등에 이용됨


Ø RPA 도구로 정보를 추출해야 할 대상이 종이 장표 밖에 없는 경우는 당연히 OCR이 도움이 필요하며, 정보를 디지털로 변환하여 RPA 도구로 처리할 수 있도록 할 필요성이 클수록 OCR 엔진을 활용하게 될 경우가 늘어날 것임


ž RPA 도구의 기술 요소 중 사람의 뇌에 해당하는 기술은 업무 절차와 규칙에 따라 작업이 진행될 수 있도록 하는 역할을 하며, 워크플로우와 규칙 엔진이 대표적임.


Ø 화이트 칼라의 일상적인 업무는 일반적으로 정해진 절차와 규칙에 입각해 진행되는 경우가 많기 때문에 RPA 도구는 작업자의 일련의 처리 흐름을 설계하고 실행하는 워크플로우(workflow) 기능을 갖추고 있어야 함


Ø 처리 흐름이란 가령 ①수신 메일에서 입력할 데이터를 얻는다 à ②입력 데이터를 확인한다 à 데이터를 시스템에 입력한다 à 처리 결과를 메일로 통보한다 등이 될 수 있음


Ø 여러 사람이 협업해 업무를 수행하는 경우는 RPA 도구에 있는 워크플로우 기능을 사용하는 대신 사내에서 사용 증인 워크플로우 시스템에서 제공하는 승인 절차와 연계하는 방식을 취하는 것이 더 효과적일 수 있음


<자료> Network Automation


[그림 3] SAP와 세일즈포스닷컴 연계를 위한 워크플로우


Ø RPA가 제공하는 규칙 엔진은 처리 대상 상품의 할인율을 바꾼다거나, 신청 유형에 따라 심사 대상을 바꾸는 등 미리 정한 규칙에 따라 작업을 실행할 수 있게 해주는 기술 요소임


Ø 업무 규칙은 다양한 상황 변화에 ​​따라 수시로 변경되는 것이 일반적인데, 규칙 엔진을 사용하면 시스템에 미치는 영향을 최소화하면서 규칙을 추가, 변경할 수 있게 됨


ž RPA의 기술 요소 중 사람 손에 해당하는 것은 주로 응용프로그램에 정보의 입출력을 담당하며, 마우스나 키보드의 모방과 응용프로그램 작업 라이브러리 등이 있음


Ø 대부분의 사무 업무는 데이터의 입력과 작성으로 마무리 되므로, RPA 도구는 사람이 마우스 나 키보드를 사용하여 작업하는 것을 모방하여 그대로 수행할 수 있게 해주는 기술이 필요함


Ø RPA 도구를 윈도 환경에서 실행하는 경우 윈도 API가 제공하는 인터페이스를 활용한 프로그램을 이용하여 마우스와 키보드의 조작을 모방하는 것이 일반적임


Ø 벤더들이 내놓은 RPA 도구 대부분은 자주 사용되는 응용프로그램으로 수행되는 작업에 특화된 라이브러리를 제공하고 있는데, 가령 윈도 환경이라면 엑셀에서 셀 편집, 엑셀의 행과 열 추가 및 삭제, 아웃룩에서 메일 송수신 등의 작업이 라이브러리로 제공됨


ž RPA에 대한 관심이 높아질수록 벤더들은 AI 등을 이용해 기능을 더 고도활 할 것이기 때문에, 도입을 고려 중인 기업은 기능 최적화 및 확장성 등을 면밀히 비교할 필요가 있음


Ø RPA는 기술적 측면에서 새롭거나 혁신적인 요소가 있는 것은 아니고, 이미 부분적으로 기업들이 도입하고 있는 기술 요소들도 있기 때문에, 벤더들로서도 RPA 판매를 위해서라면 차별화 된 가치 제공을 위해 최신 기술 트렌드 접목을 시도할 수밖에 없는 측면이 있음


Ø 따라서 RPA 도구의 기능은 계속 고도화되고 발전할 것인데, 예를 들어 에 해당하는 기능이라면 AI를 활용해 고도의 업무 판단 능력을 장착하려 할 것임은 누구나 쉽게 예상할 수 있는 것이었고, 실제로 이미 벤더들은 AI 기능 장착을 마케팅 포인트로 잡고 있음


Ø AI 기반의 RPA 도구들은 가령 다양한 장표의 포맷을 기계학습 시킨 알고리즘을 담고 있기 때문에, 장표를 입력하면 레이아웃을 자동으로 인식해, 이름, 주소, 회원번호 등의 항목을 자동으로 추출하는 등의 기능을 구현하고 있음


Ø OCR AI를 조합하여 인식률을 향상시킨 AI-OCR 기술의 활용도 시작되고 있기 때문에 RPA 도구와의 연계도 진행될 것으로 예상됨


Ø RPA 도입을 고려중인 기업이라면 자신들에게 가장 필요한 기술 요소가 뛰어난 솔루션이 어느 것인지, 또한 AI 등 향후 기술 고도화나 확장성까지 기대할 수 있는 것이 무엇인지, 기존에 도입한 IT 시스템과 연계가 용이한 것이 무엇인지 다면적으로 검토할 필요가 있음


ž 또한 RPA의 기능이 고도화되고 도입이 확산된다면 생산성 향상의 순기능뿐 아니라 인간 노동력의 재배치 이슈도 발생할 것이므로 섬세한 도입 로드맵 마련이 필요할 것임


Ø IBM에 따르면 기업 업무 중 약 33%를 차지하는 데이터 수집과 처리 영역에 RPA를 우선 도입할 수 있으며, 30%를 차지하는 전문 지식이 필요하고 인력간 상호작용이 필요한 업무에도 고도화된 RPA의 도입이 가능하다고 함


<자료> LinkedIn


[그림 4] RPA의 결과: 생산성 향상 또는 해고


Ø 이는 RPA의 도입에 따라 기업에 미치는 영향이 다층적일 수 있음을 시사하는데, AI 기반의 RPA가 제시하는 고급 의사결정 지원까지 이루어질 경우, 사무 업무의 생산성 향상이라는 당초 RPA 도입 목적 달성을 넘어 기업 인력구조 전반의 거대한 변화로 이어질 수 있음


Ø 제조 현장에서 로봇의 도입에 의해 노동 인력의 구성이 크게 변화한 것처럼, 사무 현장도 RPA라는 로봇 소프트웨어에 의해 노동 인력의 대폭 구조 조정이 가능해질 것이기 때문


Ø 따라서 기업은 RPA의 도입이 AI에 의한 대량 실업의 우려 이슈로 이어지지 않도록 RPA 도입 시 인력전환 및 재교육 계획도 함께 수립해야 할 필요가 있음


Ø 기업의 RPA 도구 도입을 계기로 이제 기업 경영진을 의미하는 C 레벨에 AI 책임자를 두어야 할 필요성, 즉 최고 AI 책임자(CAIO, Chief AI Officer)를 두어야 할 필요성도 고조되고 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1818호(2017. 10. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 하드웨어 신제품 발표, 제품 차별화 요소는 &lsquo;AI 최적화&rsquo;.pdf



[ 요 약 ]


구글이 작년에 이어 메이드 바이 구글(Made by Google) 행사를 통해 신제품을 대거 공개했는데올해 신제품 발표회의 테마는 하드웨어와 소프트웨어그 중에서도 인공지능(AI)의 통합이었음구글은 이번 신제품에 최신 AI 기술의 성과를 광범위하게 적용하며향후 AI가 기기 차별화의 결정적 요인이 될 것으로 바라보고 있음을 드러냈음스마트 기기의 하드웨어 차별성이 점차 엷어지는 가운데소프트웨어 최적화를 넘어선 AI 최적화가 제품 경쟁의 새로운 화두가 될 것으로 예상됨



[ 본 문 ]


ž 작년 10메이드 바이 구글(Made by Google) 하드웨어 신제품 5개를 일거에 출시했던 구글이 1년 만에 다시 신제품을 대거 발표하였음


Ø 이번에 발표한 신제품은 작년에 출시된 제품의 업그레이드 버전도 있지만, 구글로서는 새롭게 시도하는 제품들도 포함되어 있음


<자료> Google

[그림 1] Made by Google 2017


Ø 작년에 선보인 구글 자체 스마트폰 픽셀(Pixel)의 후속 버전으로 픽셀 2가 발표됐으며, 역시 작년에 선보인 인공지능(AI) 스피커 구글 홈(Google Home)은 이번에 구글홈 미니(Mini)구글홈 맥스(max)로 라인업이 확대되었음


Ø 올해 새롭게 선보인 제품으로는 액션 카메라인 구글 클립스(Google Clips)와 음악 재생 및 외국어 번역에 사용하는 블루투스 헤드셋 구글 픽셀 버즈(Google Pixel Buds), 그리고 크롬북의 상위 버전이라 할 수 있는 노트북 픽셀북(PIxelbook)이 있음


Ø 작년 10월에 이어 1년 만에 다시 하드웨어 발표회를 개최함으로써 향후 구글이 5월에 개최되는 연례 개발자 컨퍼런스 구글 I/O에 이어 10월의 신제품 발표회를 연례 행사화 할 가능성도 점쳐지고 있음


ž 이번 신제품 발표회의 테마는 하드웨어에 소프트웨어와 인공지능(AI)을 통합하는 것으로, 구글이 AI를 제품 차별화의 결정적 요인으로 바라보고 있음을 드러냄


Ø 구글홈 미니는 아마존의 소형 AI 스피커인 에코닷(Echo Dot)의 대항마 성격으로, 가격은 49 달러이지만 AI 가상비서 기능인 구글 어시스턴트(Google Assistant)가 탑재되어 있음


Ø 미니는 도넛 크기의 타원형 형상으로 상단에 LED가 탑재되어 기기 상태를 표시해주는데, 에코닷과 마찬가지로 가정 내 각 방에 하나씩 놓고 사용하는 것을 전제로 디자인 한 것으로 보이며, 구글이 집 전체 공간을 AI로 채우고 싶어함을 유추할 수 있음


Ø 맥스는 음질을 중요한 모델인 동시에 구글이 400 달러인 가격에 걸맞게 구글홈보다 20배 정도 성능이 강력하다고 소개할 정도로 AI 기반의 사운드 재생 기능이 뛰어난 기기임


Ø 2개의 4.5인치 우퍼를 내장해 깊이 있는 사운드 재생이 가능하며, 스마트 사운드(Smart Sound) 기능을 탑재하고 있어 주변 환경과 사용자의 컨텍스트에 맞게 음악을 재생할 수 있음



<자료> Google


[그림 2] 구글홈 미니(Mini)와 맥스(Max)


Ø 구글은 스마트 사운드 기능의 예로 AI가 방의 모양을 파악해 그에 적합한 사운드를 재생하거나, 아침 시간에는 볼륨을 좀 낮추어 재생하고 식기 세척기가 가동 중이어서 시끄러울 때는 볼륨을 높여 음악을 재생하는 것 등이 가능하다고 설명하고 있음


Ø 픽셀 2 스마트폰에는 지난 5월 구글 I/O에서 소개한 구글 렌즈(Google Lens) 기능이 처음으로 적용되었는데, 구글 렌즈는 구글 어시스턴트를 기반으로 렌즈에 비친 사물에 대한 정보를 불러들인 후 사진에 담긴 물체나 글자를 인식해 알려주는 AI 카메라임


Ø 픽셀북은 노트북과 태블릿 PC를 결합한 것으로 역시 구글 어시스턴트가 적용되어 있으며, 가령 픽셀북 펜을 이용해 디스플레이 화면 안의 특정 부분에 원을 그리면 구글 검색 엔진이 그 원안의 물체를 인식하고 관련된 정보를 검색해 줌


ž 구글이 AI를 신제품의 차별화 요소로 삼는 이유는, AI가 비단 구글의 하드웨어 신제품뿐 아니라 스마트 홈 생태계의 허브 기능을 담당할 것으로 보기 때문임


Ø 구글홈의 핵심 기능인 구글 어시스턴트는 스마트폰(안드로이드와 iOS), 스마트 워치(안드로이드 웨어), 텔레비전(안드로이드 TV) 등과도 연계할 수 있으며, 가상 비서의 인터페이스는 급속하게 음성으로 전환하고 있음


Ø 구글 어시스턴트는 생태계를 급속히 확장하고 있는데, 현재 스마트 홈 관련 기업 네스트(Nest), 필립스(Philips), 스마트씽스(SmartThings) 등이 내놓은 1천여 제품과도 연계가 가능함


Ø 특히 알파벳 산하의 네스트와 구글홈의 연계가 더욱 강화되고 있는데, 이번 기능 업그레이드로 네스트의 보안 카메라인 네스트 캠(Nest Cam)을 구글홈에서 조작할 수 있게 되었음


<자료> Google


[그림 3] 구글홈과 네스트 캠의 연계


Ø 이로써 가령 현관에서 무슨 소리가 나는 것 같을 때 구글홈에게 현관 앞 상황을 TV로 보여줘라고 명령하면, 구글홈이 네스트 캠에 찍힌 영상을 TV로 디스플레이 하는 것이 가능해졌음


Ø 또한 네스트의 스마트 초인종인 네스트 헬로(Nest Hello)도 구글홈에서 조작할 수 있게 되었는데, 네스트 헬로는 얼굴 인식 기능으로 방문자를 식별할 수 있는 친숙한 얼굴(Familiar Faces)라는 기능을 탑재하고 있음


Ø 따라서 누군가 초인종을 누르면 네스트 헬로가 그 인물을 인식해 구글홈에 알려주고, 구글홈이 이용자에게 방문자의 이름을 알려주는 것이 가능하며, 이런 기능을 활용해 네스트와 연계한 주택의 보안을 구글홈에서 집중 관리하는 것이 가능함


Ø 구글 어시스턴트가 허브가 되는 스마트 홈은 개인화 서비스도 가능한데, 보이스 매치(Voice Match) 기능을 통해 동시에 여섯 명의 목소리를 구분해 알아 듣고 개별 대응이 가능하기 때문


Ø 개인 맞춤형 서비스의 예로 이번 신제품 발표회에서는 에브리데이 루틴(Everyday Routines) 기능이 소개되었는데, 이는 한 단어만 듣고 그 사람과 관련된 여러 가지 명령을 동시에 실행하는 것으로 구글의 지향점을 잘 보여주고 있음


Ø 가령 식구들 중 회사로 출근을 해야 하는 사람이 있을 경우, 이 사람이 아침에 일어나 좋은 아침이라고 한 마디만 하면, 구글홈이 그의 하루 일정을 확인하고 일정에 따른 이동 경로의 도로 정체 정보를 알려주며 주요 뉴스를 읽어주도록 설정할 수 있음


Ø 또한 아이들이 구글홈에게 우리 게임하자라고 말을 할 경우, 아이들의 목소리를 인식하여 아이들이 안전하게 즐길 수 있는 게임을 실행하도록 설정할 수도 있음


ž 구글은 AI가 스마트 홈의 허브로 선택될 수 있도록 인간 친화적인 특성을 띠게 하는 데도 공을 들였는데, 여기에는 딥마인드(DeepMind)의 새로운 음성합성 기술이 기여를 하였음


Ø 구글홈의 음성 발화는 고급 AI가 적용되어 매우 매끄럽게 들리는데, 여기에는 딥마인드가 지난해 발표한 새로운 음성 합성(Speech Synthesis) 기술이 관여되어 있음


Ø 딥마인드가 새롭게 발표한 웨이브넷(WaveNet)은 심층신경망(Deep Neural Network)을 이용해 기계음이 인간에 가깝게 자연스럽게 발성할 수 있게 해주는 음성 합성 기술임


Ø 일반적으로 음성 합성은 말을 아주 작은 단위로 나눈 다음 필요한 음운, 음소, 단어에 맞게 조립하는 음성 연결 합성(Concatenative TTS)이라는 기법 사용하는데, 이 때문에 기계음은 말 그대로 기계적이고 어색한 톤으로 발화가 됨


Ø 딥마인드는 기존의 방식과 전혀 다른 접근 방식을 취했는데, 웨이브넷은 많은 수의 음성 샘플을 배우고 음성 파형(Audio Waveform)을 잘게 세분화 해 분석함으로써 음성 만으로는 알 수 없었던 숨 고르기나 단어 혹은 문장끼리 합쳐지는 방식까지 이해가 가능하게 하였음


Ø 구체적으로 살펴 보면 컨볼루셔널 신경망(Convolutional Neural Network, CNN)이 발화의 구성을 파악하여 어떤 음색(Tone) 후에 어떤 음색이 이어지는지, 어떤 파형(Waveform)이 자연스러운지 학습하게 되며, 이를 토대로 아주 부드러운 음성을 합성하게 됨


Ø 딥마인드는 웨이브넷이 인간의 미묘한 톤이나 억양, 말할 때의 속도 등을 그대로 재현할 수 있다고 설명했는데, 음성 연결 합성 방식이나, 인간 음성 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 기술과 블라인드 테스트를 한 결과 인간의 실제 음성에 육박하는 수준의 높은 점수로 1위를 차지했다고 함


Ø 단 작년 발표 시점에서 웨이브넷은 음성 합성을 빠르게 수행 할 수 없어 0.02 초의 오디오를 생성하는데 1 초가 필요했으나, 그 동안 알고리즘 개선을 통해 빠른 음성 합성까지 가능해졌다고 하며, 현재 1 초 길이 오디오를 50 밀리 초에 생성하므로 실시간 사용이 가능하다고 함


[1] 딥마인드 웨이브넷과 음성 합성 기술의 비교

 

Concatenative

Parametric

WaveNet

인간의 음성

미국식 영어

3.86

3.67

4.21

4.55

만다린 중국어

3.47

3.79

4.08

4.21

<자료> DeepMind


ž 하드웨어들의 주요 기능이 점차 천편일률적으로 되어 가는 상황에서, 이번 구글의 신제품 발표회는 향후 AI 최적화가 스마트 기기의 시장 성패를 가르게 될 것임을 강하게 시사


Ø 구글홈을 비롯해 이번에 구글이 발표한 제품들의 배후에는 최신 AI 기법이 광범위하게 사용되고 있는데, 이용자의 음성을 인식하는 데뿐만 아니라 음성 합성 역시 AI 없이는 매력적인 특색을 실현할 수 없음을 보여주고 있음


Ø 소프트에어 기업인 구글이 자체 하드웨어 생산에 나선 데에는 여러 가지 이유가 있겠으나, 하드웨어를 통한 차별화는 이제 한계에 다다르고 소프트웨어를 통한 차별화, 그 중에서도 AI에 의한 차별화가 제품 경쟁력의 핵심 요소가 될 것으로 판단했기 때문이라 볼 수 있음


Ø 가령 지금까지 스마트폰의 경쟁 구도는 애플의 소프트에어 최적화와 삼성전자의 하드웨어 고사양화로 요약할 수 있는데, 아이폰이 상대적으로 낮은 하드웨어 사양을 소프트웨어 최적화로 커버했다면, 갤럭시 폰은 소프트웨어의 단점을 하드웨어 혁신으로 커버하는 전략이었음


Ø 그러나 최근 들어 아이폰이나 갤럭시 폰을 비롯해 대부분의 스마트폰 사양들은 유사해지고 있는데, 구글은 이를 하드웨어 혁신의 속도가 둔화된 것, 즉 하드웨어 부문을 직접 관리하는 부담이 적어지는 신호로 받아들였을 가능성이 큼


Ø 따라서 보다 중요해지는 것은 애플과 같은 소프트웨어 최적화 역량인데, 구글은 안드로이드 OS와 하드웨어의 최적화에 덧붙여 AI 최적화를 무기로 하드웨어 비즈니스에 뛰어들려는 것으로 해석할 수 있음


Ø 하드웨어 경쟁력보다 소프트웨어 경쟁력이 압도적 이윤을 가져다 줄 수 있다는 점은 이미 애플과 삼성전자의 경쟁에서 확인된 바 있거니와, 구글은 이에 더해 AI가 제품의 차별화와 이윤을 가져다 줄 것이라 주장하는 것임


Ø 구글이 던진 AI 최적화의 화두는 스마트 디바이스 시장의 경쟁 지형을 새롭게 재편할 가능성이 크며, 디바이스 제조업체들 앞에 쉽지 않은 숙제가 던져진 셈

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1816호(2017. 9. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI 칩을 이용한 아이폰 Ⅹ 얼굴 인증 AI를 악용한 공격 대응이 관건.pdf



[ 요 약 ]


애플이 차세대 하이엔드 모델인 아이폰 ()에서 지문 인증을 빼고 얼굴 인증 기술인 페이스 ID(Face ID)를 발표하였음카메라를 향해 얼굴을 보이는 것 만으로 인증을 하는 기술은 지문 인증보다 안전성이 높고 편리한 방법으로 평가받고 있는데이번에 애플이 도입함에 따라 단번에 보급 확산이 진행될 수 있는 교두보를 마련하였음페이스 ID는 인공지능(AI)프로세서를 이용해 이미지 인식 기능을 강화했는데같은 맥락에서 AI를 악용한 고도의 공격에 대응할 것을 요구 받고 있음



[ 본 문 ]


ž 애플의 차세대 아이폰 모델 3 기종 발표회에서 가장 관심을 모은 것은 최상위 모델인 아이폰 Ⅹ(10)의 얼굴인식 기능을 이용한  페이스 ID(Face ID)였음


Ø 주 모델은 기기의 전면을 모두 수퍼 레티나 HD 디스플레이(Super Retina HD Display)로 채워 홈 버튼을 없앤 아이폰 Ⅹ(10)이었고, 아이폰 7 7 플러스의 후속 모델로는 시리즈 순서에 맞게 아이폰 88 플러스가 발표되었음



Ø 이 중 아이폰 Ⅹ은 페이스 ID(Face ID) 기능을 갖추고 있어 카메라로 얼굴을 비춰 장치 잠금 해제를 할 수 있는데, 아이폰 8과 달리 지문인식 장치를 아예 없애 애플 페이로 지불을 할 때도 기존의 터치 ID(Touch ID) 대신 페이스 ID 기능을 이용해야 함


<자료> CNET


[동영상아이폰 Ⅹ의 얼굴 인증 페이스 ID


Ø 최신 스마트폰의 추세는 전면 디스플레이를 극대화하는 것이며 아이폰 Ⅹ도 이 흐름을 수용했는데, 이렇게 하려면 홈 버튼에 담았던 지문 인식 스캐너의 위치를 옮겨야 할 필요가 있었음


Ø 발표회 전에는 터치 ID 기능을 디스플레이 안에 포함한다거나 삼성전자 갤럭시 S8처럼 스마트폰 후면으로 이동시킨다는 루머가 있었으나, 애플은 터치 ID 기능을 아예 빼는 선택을 하였음


Ø 삼성전자가 제품 매뉴얼에 얼굴 인증은 지문이나 PIN 등에 비해 안전성이 낮다고 기재함으로써 얼굴 인증을 보안이 아니라 편의성과 재미를 위해 설계한 것임을 드러낸 반면, 애플은 지문 인식 없이 페이스 ID 만으로 애플 페이를 이용하게 하여 보다 과감한 입장을 취한 것임


Ø 이는 얼굴 인식 기능이 시장에서 아직 대세가 아닌 상황에서 애플이 기술력과 자신감을 바탕으로 과감한 결단을 내린 것으로 볼 수 있는데, 대신 아이폰 8 8 플러스에는 기존 터치 ID를 그대로 유지시켜 페이스 ID에 거부감이 있는 소비자를 위한 선택지도 남겨 두었음


ž 얼굴 인증 기술은 기본적으로 이용자의 형상 변화에도 대응해야 하는 과제를 안고 있는데 이를 위해 애플은 기계학습(Machine Learning)을 이용한 이미지 비교 방식을 채택했음


Ø 페이스 ID를 사용하기 위해서는 사전에 얼굴을 등록해야 하는데, 터치 ID가 사용자의 여러 손가락 지문을 등록하거나 다른 사람의 지문을 등록할 수 있었던 것에 비해 페이스 ID는 오직 하나의 얼굴만 등록할 수 있고, 다른 얼굴을 등록하려면 이전에 등록된 얼굴을 삭제해야 함


Ø 아이폰 Ⅹ은 트루뎁스 카메라(TrueDepth Camera)라는 특수 카메라를 탑재하고 있는데, 얼굴을 등록 할 때 트루뎁스 카메라의 도트 프로젝터(Dot Projector)에서 3만 개의 점이 얼굴에 투사되고 이를 적외선 카메라(Infrared Camera)에서 읽어 들여 얼굴의 3D 맵을 생성하게 됨


<자료> iphone tricks


[그림 2] 트루뎁스 카메라의 구조()와 페이스 ID 3D 스캐닝 포인트()


Ø 이 정보들은 프로세서 내의 스토리지인 시큐어 인클레이브(Secure Enclave)에 암호화하여 저장되며, 페이스 ID 사용 시 광원 역할을 하는 플러드 일루미네이터(Flood Illuminator)에서 적외선이 투사되고 이를 적외선 카메라가 읽어 들여 등록된 얼굴 맵과 비교하여 인증을 수행함


Ø 페이스 ID는 광원으로 적외선을 사용하기 때문에 외부 빛의 조건에 관계없이 어두운 곳에서도 정확하게 얼굴을 인증할 수 있는 장점이 있음


Ø 반면, 얼굴 인증은 이용자의 상태가 변화하는 것에 대응해야 하는 과제를 안고 있는데 즉, 머리카락이나 수염이 자라거나 안경을 착용하여 등록된 얼굴 이미지와 달리 보일 경우에도 이용자가 불편하지 않게 본인 확인을 할 수 있어야 함


Ø 이 문제 해결을 위해 애플은 기계학습 기법을 이용한 이미지 비교 방식을 채택했는데, 알고리즘에 대한 기계학습을 통해 등록된 얼굴 형상이 머리와 수염을 기르고 안경을 쓰면 어떻게 천천히 변화하는지를 인식할 수 있게 하는 것임


Ø 다양한 조건을 사전에 학습시켜 둠으로써 이용자의 형상이 바뀌더라도 정밀하게 판정 할 수 있게 한 것이며, 또한 얼굴을 3D로 비교함으로써 사진을 통해서는 인증 받을 수 없게 하였음


ž 페이스 ID에 기계학습이 적용되었다는 것은 카메라의 차별적 성능이 이제 광학 센서가 아니라 인공지능(AI)에 의해 결정되고 있음을 다시 한번 보여 줌


Ø 트루뎁스 카메라는 셀카(Selfie)를 찍을 때 특수 효과를 내는 데도 사용할 수 있는데, 인물사진 조명(Portrait Lighting)이라 불리는 기능을 이용하면 스튜디오에서 촬영 할 때처럼 마치 빛을 조정한 것 같은 효과를 얻을 수 있음


Ø 자연 조명(Natural Light) 옵션을 선택하면 자연광 아래에서 촬영한 효과를, 스튜디오 조명(Studio Light) 옵션을 선택하면 밝은 조명 아래 촬영한 효과를 얻을 수 있으며, 칸투어 조명(Contour Light) 옵션은 얼굴의 요철을 돋보이게 하여 극적인 인상을 만들며, 무대 조명(Stage Light) 옵션은 배경을 검게 처리해 얼굴을 부각시킬 수 있음


<자료> Apple


[그림 3] 인물사진 조명의 다양한 옵션


Ø 트루뎁스 카메라는 스테레오 카메라여서 객체를 3D로 파악하므로 인물과 배경을 구분할 수 있고, 여기에 AI가 사람의 얼굴을 파악해 얼굴 부위에 빛을 쬐어 특수 효과를 만들어 내는 것인데, 메인 카메라에도 인물사진 조명 기능이 탑재되어 위의 옵션들을 사용할 수 있음


Ø 카메라는 전통적으로 광학 센서가 차별화 요인이었지만, 지금은 포착한 이미지를 AI를 통해 얼마나 깨끗이 처리 할 수 ​​있는지가 중요해지고 있으며, 아이폰의 카메라는 소프트웨어 결정 카메라(Software-Defined Camera)라는 소프트웨어가 성능을 좌우함



Ø 트루뎁스 카메라를 이용하면 움직이는 이모티콘인 애니모지(Animoji)를 만들어 전달할 수 있는데, 카메라는 얼굴의 50개 지점의 움직임을 파악해 이를 이모티콘 캐릭터와 매핑하는데, 가령 놀란 표정을 지으면 캐릭터도 놀라는 모양이 됨


<자료> Howtoisolve


[그림 4] 아이폰 Ⅹ의 애니모지 메시지 기능


Ø 애니모지를 이용해 영상 메시지를 보내면, 표정을 모방한 캐릭터가 음성과 함께 아이메시지(iMessage)로 상대방에게 전달되는데, 캐릭터는 고양이, 돼지, 닭 등 12개가 제공되고 있음


Ø 애니모지 외에도 트루뎁스 카메라는 스마트한 아이폰 이용을 지원하는데, 사용자의 시선을 인식해 화면을 보고 있는 등 아이폰을 사용 중이라 판단하면 슬립 모드로 전환되어 화면이 꺼지지 일이 없도록 하고 알람이나 전화벨 소리를 낮추는 등 똑똑한 도우미 역할도 수행함


Ø 이러한 신형 아이폰의 기계학습과 이미지 처리를 지원하는 것이 AI 프로세서인 A11 Bionic(바이오닉)인데, 이 프로세서는 뉴럴 엔진(Neural Engine)을 탑재하고 있으며 그. 이름에서 알 수 있듯이 AI 처리에 특화되어 있음


Ø 뉴럴 엔진은 기계학습 처리 전용 엔진으로 사람이나 물건이나 장소 등을 빠르게 파악하는 기능을 통해 페이스 ID와 애니모지의 처리를 지원하고 있는데, 이와 동시에 애플은 AR(증강현실)의 이미지 처리 속도도 이 엔진을 통해 가속화 하고 있음


ž 이처럼 AI를 기반으로 한 페이스 ID 기능에 대해 애플이 상당한 자신감을 보이고 있긴 하지만, 아무래도 인증 관련 기술이다 보니 보안 침해 가능성에 대한 우려도 제기되고 있음


Ø 페이스 ID가 확산되려면 안전성에 대한 소비자의 확신이 전제가 되어야 하는데, 애플은 얼굴 인증에 대한 공격 방법이 영화에 종종 사용되는 페이스 마스크(Face Mask)가 될 것으로 보고 이에 대한 철저한 실험을 했다고 함


Ø 페이스 마스크는 출연자의 얼굴을 3D로 카피한 후 이를 마스크로 재구성하는 것인데, 애플은 실제로 할리우드에서 페이스 마스크를 만들어 페이스 ID의 인정 정밀도를 벤치마크 하였음


Ø 여기에도 기계학습 기법이 사용되어 인간의 얼굴과 페이스 마스크를 구분하도록 알고리즘을 교육시켰다고 하는데, 이러한 나름의 연구개발 성과를 바탕으로 애플은 페이스 ID의 오인식률이 100만분의 1 이하라 자신한 것으로 보임


Ø 그러나 사진이나 마스크로는 페이스 ID가 뚫리지 않는다는 애플의 주장에 대해, 일부 보안 전문가들은 3D 촬영 기술의 발전이나 3D 프린터 기술의 발전으로 실제 얼굴과 거의 흡사한 3D 얼굴 모형을 얼마든지 만들어 낼 수 있다는 점을 간과할 수 없을 지적하고 있음


ž 실제로 최근 VR(가상현실)이나 인공지능(AI)을 이용해 3D로 얼굴을 구성하는 기술들이 발표되고 있어 얼굴 인증 메커니즘의 신뢰성을 보다 확실히 해야 할 필요성이 높아지고 있음


Ø 얼굴 인증과 관련한 흥미로운 연구 성과 발표는 작년부터 시작되었는데, 노스 캐롤라이나 대학의 연구팀은 페이스북과 인스타그램에 게재된 얼굴 사진을 3D로 재구성하는 방법을 공개했음

Virtual U Defeating Face Liveness Detection by Building Virtual Models From Your Public Photos.pdf



Ø 연구팀은 대상자의 얼굴 사진을 여러 장 모아 얼굴의 구조를 3D로 재구성한 뒤, 3D 구조에 피부의 색상과 질감을 더하고 다양한 표정을 추가한 다음 VR 디스플레이로 표현하였음


<자료> Department of Computer Science, University of North Carolina


[그림 5] 노스 캐롤라이나 대학 연구팀의 VR을 이용한 사진 이미지 3D 재구성 프로세스


Ø 연구 논문에 따르면 3D로 재구성한 얼굴의 VR을 얼굴 인증 시스템에 입력하고 인증에 성공했는데, 현재 스마트폰 보안에 이용되고 있는 5개 얼굴 인식 앱을 대상으로 테스트를 실시하였음


Ø 테스트 결과5개의 앱 중 하나를 제외하면 55~85%의 성공률을 보였으며, 이런 결과를 토대로 연구팀은 현재의 얼굴 인증 메커니즘을 개선할 필요가 있다고 어필하였음


Ø 연구팀이 애플의 페이스 ID를 대상으로 테스트 할 지 여부는 아직 알려지지 않고 있는데, 트루뎁스 카메라가 얼굴을 3D로 감지 할 수 있어 아이폰 Ⅹ에 무단으로 접근할 수 없을 것으로 보이긴 하지만 만약 VR로 표현된 얼굴을 3D 프린터로 출력하면 상황은 달라질 지 모름


Ø 실제로 독일의 보안 솔루션 기업인 시큐리티 리서치 랩(Security Research Labs)은 얼굴의 3D 이미지를 3D 프린터로 생성하여 얼굴 인증 시스템을 테스트하는 연구를 진행하고 있음


Ø 이 기업은 피험자의 3D 얼굴 형상을 가지고 마이크로소프트의 얼굴 인증 시스템인 헬로(Hello)에서 인증받는 데 성공했다고 하며, 아이폰 Ⅹ이 정식 출시되면 페이스 ID의 보안성을 검증하는 작업을 시작할 것이라고 함


Ø 얼굴 인증과 관련한 가장 최근의 흥미로운 연구로는 영국 노팅엄 대학과 킹스턴 대학 연구팀이 대학이 발표한 1장의 얼굴 사진에서 인공지능을 이용해 3D로 얼굴을 구성하는 기술임


Ø 컴퓨터 비전에서 얼굴을 3D로 파악하는 것은 매우 어려운 기술이기 때문에 보통은 많은 사진을 입력하고 이들로부터 3D 이미지를 재구성하는 것이 일반적인 방법임


Ø 이에 비해 노팅엄 대학과 킹스턴 대학 연구팀은 이미지를 판단하는 CNN(Convolutional Neural Network, 뇌이랑 신경망)을 얼굴 사진과 본인의 3D 이미지로 교육함으로써 알고리즘이 1장의 얼굴 사진에서 3D 이미지를 재구성하는 것을 가능케 하였음



<자료> http://www.cs.nott.ac.uk/~psxasj/3dme/

[그림 6] 사진 1장으로 얼굴을 3D로 재구성



Ø 노팅엄 대학이 연구 성과를 기반으로 얼굴 인증 시스템에 대한 테스트를 실시한 것은 아니지만, 향후 AI를 악용한 얼굴 인증 시스템에 대한 공격이 급증할 수 있음을 시사하고 있으며, 아이폰 Ⅹ가 출시되면 페이스 ID 해킹 레이스가 시작되고 애플은 다양한 도전을 받게 될 것임


3D Face Reconstruction from a Single Image (클릭 사이트 이동)




ž 얼굴 인식이 향후 인증 기술의 주류가 될 지, 아니면 이용자의 호응과 신뢰를 얻지 못해 또 다른 인증 기술이 모색될 지, 당분간 애플 페이스 ID의 행보에 관심이 모일 전망


Ø 다양한 생체 인식 방식이 가운데 얼굴 인증 방식은 정밀도와 활용성이 높기 때문에 향후 크게 확산될 것으로 보는 전문가들이 많으며, 3~5년 후에는 인증 기술의 절반 이상이 얼굴 인증이 될 것이라는 예측도 있음


Ø 다른 생체인식과 비교해 보면, 목소리 인증은 콜센터 등에서 사용되고 있지만 복제하기가 쉬워 채택이 제한적이며, 이런 이유로 아마존 에코(Amazon Echo) 등은 인증이 아닌 이용자 식별을 위해 목소리를 사용하고 있을 뿐임


Ø 또한 현재는 지문 인증이 생체 인식 중 가장 폭넓게 이용되고 있지만 작은 센서로 지문을 정확하게 읽는 기술은 쉽지 않으며, 지문 또한 복제가 가능해 보안상 우려도 있음


Ø 이런 이유로 생체 인식에서 얼굴 인증이 주목 받고 있는 것이며, 아이폰 Ⅹ이 아직 정식 출시되지 않았음에도 페이스 ID는 이슈를 만들고 있고 얼굴 인증 기술의 동향과 관련해 많은 관심이 쏟아지고 있는 것임


Ø 아이폰 Ⅹ과 관련해 향후 또 하나 주목해야 할 것은 홍채 인식(Iris Recognition)으로 발전할 가능성인데, 홍채 인식은 정밀도가 얼굴 인식 보다 높아 오래 전부터 주목 받아온 방식이지만 적외선 센서 등 전용 장비가 필요하기 때문에 쉽사리 보급이 진행되고 있지 않음


Ø 삼성전자의 갤럭시 노트7과 노트8이 홍채 인식 기능을 이미 제공하고 있긴 하지만 인증 정확도와 보안성에 대해서는 아직 평가가 정확하지 않은 상황인데, 아이폰 Ⅹ이 얼굴 인식을 위해 적외선 센서를 탑재함에 따라 향후 홍채 인증울 진행하는 것 아니냐는 루머도 나오고 있음


Ø 비즈니스 타이밍 포착에 천재적인 애플이 이번에도 얼굴 인증을 대세 인증 기술로 밀어 올릴지, 페이스 ID에 대한 다양한 도전을 극복하지 못해 새로운 인증 기술을 모색하게 될 지, 아이폰 Ⅹ가 받아들 성적표에 벌써부터 많은 관심이 모이고 있음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1813호(2017. 9. 13. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

인공지능으로 로고의 우수성을 점수 매기는 로고 랭크 서비스.pdf



ž 미국의 스타트업 브랜드마크(Brandmark)는 인공지능을 이용해 기업이나 조직의 로고가 디자인 측면에서 얼마나 우수한 지를 알려주는 로고 랭크(Logo Rank) 서비스를 제공 중


Ø 브랜드마크는 이 서비스를 위해 100만 개 이상의 로고 디자인을 인공지능(AI)에 학습시켰으며, AI는 학습결과를 바탕으로 입력된 로고에 대해 독창성, 가독성, 색상/대비 3개 항목에서 점수를 평가하며 종합적인 점수도 매겨 줌


Ø 로고 디자인은 여러 제약 속에서 창의성을 발휘해야 하는 작업으로, 좋은 로고는 브랜드를 시각적으로 잘 표현할 뿐만 아니라 멀리서도 잘 보이도록 단순해야 하며, 수 많은 다른 심볼이나 아이콘들과 혼동되지 않도록 독창적이어야 함


Ø 브랜드마크는 시각적으로 좋은 로고를 만들어 내는 요소들이 무엇인지에 대한 개념을 정립해 로고를 자동으로 생성해주는 시스템을 구축하려 했고, 그 수단으로써 인공지능에 대한 기계학습이라는 방법을 채택하였음



<자료> Logo Rank


[그림 1] AI로 로고 점수를 매겨주는 "LOGO Rank" 서비스


Ø 로고 랭크 서비스 이용 방법은 간단해서, 해당 사이트(http://brandmark.io/logo-rank/)에 접속한 후, 빈 네모 박스에 로고를 끌어다 놓거나 로고 파일을 업로드 하면, 몇 초 후에 3개 항목의 점수와 종합 점수를 보여 줌


Ø 로고 랭크에 따르면 구글의 로고는 독창성 36, 가독성 100, 색상/대비 58, 종합 65점이며, 애플의 로고는 독창성 26, 가독성 100, 색상/대비 100, 종합 75점으로 평가되었음


<자료> Logo Rank


[그림 2] 애플 로고의 가독성 점수


Ø 브랜드마크는 인공지능을 이용해 로고 생성 서비스도 제공하고 있는데, 기업의 브랜드와 그 브랜드를 설명하는 3개 이상의 키워드를 입력하면 자동으로 로고를 생성하고, 그 로고를 이용한 웹페이지, 명함, T-셔츠, 옥외 광고물 등의 디자인 시안도 보여 줌