※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

스스로 학습하는 인공지능 GAN, 현재 200여 개 파생기술 연구 중.pdf



[ 요 약 ]


구글의 인공지능(AI) 연구 부문인 구글 브레인의 이언 굿펠로우가 2014년 발표한 GAN(Generative Adversarial Networks)은 최근 10년간 AI 연구에서 가장 뛰어난 성과로 평가받고 있으며현재 약 200여 개의 변형된 기술들이 연구되고 있음. GAN은 딥러닝과 달리 인간의 개입 없이도 그리고 학습할 데이터가 없어도 신경망 스스로 학습해 나갈 수 있음을 보여주고 있다는 점에서 큰 기대를 받고 있으며그 잠재력만큼 동시에 큰 위험도 내포하고 있어 우려의 목소리도 높아지고 있음



[ 본 문 ]


ž 알파고 이후 인공지능(AI)이 대체할 수 없는 창의성을 키워야 한다는 주장이 더욱 커졌지만, 기실 알파고 쇼크의 본질은 창작도 AI가 인간보다 잘 할 수 있음을 보여준 데 있음


Ø 지나 10월 알파고를 개발한 딥마인드(DeepMind)인간의 지식 없이 바둑 게임 정복하기라는 논문을 발표하며, 새롭게 알파고 제로(Zero)를 소개하였음


Ø 제로라는 코드네임이 붙은 이유는, 이전 버전의 알파고 개발에서는 최초 학습 데이터로 사람의 기보 약 16만 건을 사용한 반면, 알파고 제로는 사람의 기보나 바둑에 대한 기본 규칙을 전혀 입력하지 않고 AI 스스로 바둑을 두면서 실력을 배양하도록 했기 때문


Ø 논문에 따르면 알파고 제로는 72시간 만에 이세돌을 꺾은 알파고 리 버전을 넘어섰고, 4개월 후에는 커제를 꺾은 알파고 마스터 버전을 넘어섰다고 함.


Ø 기존 AI가 방대한 데이터 분석과 강화학습 등을 통해 인간의 지혜를 배우는 데 초점을 두고 인간이 이미 잘 할 수 있는 것들을 자동화는 수준이었다면, 알파고 제로는 인간 전문가의 개입이나 인간의 관점 입력 없이 이루어졌다는 데 중대한 함의가 있음


Ø 알파고 제로의 바둑을 보면서 바둑계에서 나온 반응은 그래도 사람이 수천 년 동안 발전시켜 온 소위 바둑의 정석이란 것이 틀리지 않았음이 확인되어 다행이다라는 것이었는데, 최소한 바둑계에서는 이제 아무도 AI를 그저 엄청난 속도로 연산을 하는 기계로만 바라보지 않음


ž 실제 디자인, 회화, 음악, 문학, 영화 등 예술과 창작 영역에 AI의 침투 소식은 이제 더 이상 낯설지 않은데, 이들 소식에서 언급되는 AI는 수십 가지로 변형되고 있는 GAN 기술임


Ø 지난 5엔비디아 GTC 2017 컨퍼런스에서 구글 리서치의 이언 굿펠로우는 청중들에게 각양각색의 고양이 사진을 보여주며, 이중 실제 고양이 사진이 아닌 AI가 임의로 합성해 낸 이미지를 찾아보라고 질문을 던졌음


Ø 청중들은 좀처럼 찾아낼 수 없었는데, 사실 그 사진들 중 실제 고양이 사진은 단 한 장도 없었고 모두 AI가 무작위로 합성해 낸 것이었으며, 사람들은 진짜 사진과 가짜 사진의 구분이 무너지고 있다며 감탄과 탄식을 동시에 쏟아 냈음


<자료> NVIDA


[그림 1] GAN을 개발한 이언 굿펠로우


Ø 고양이 사진 합성에 사용된 인공지능 기술은 생성적 대립쌍 신경망(GAN, Generative Adversarial Network)이라 불리는 것인데, 이언 굿펠로우가 지난 2014년에 논문을 통해 발표했을 때 컴퓨터 사이언스 학계에서 찬사가 쏟아졌음


Ø 딥러닝의 창시자로 불리는 제프리 힌튼 교수는 (GAN)에 대해 최근 10년 간 가장 매력적인 이론이라 평가했는데, 인간의 가이드라인에 따라 수동적으로 학습하는 기존 AI와 달리 능동적으로 학습하고 행동하는 AI 개발을 위한 토대가 될 것이라 보았기 때문임


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크, 즉 이미지를 만드는 생성자(Generator)와 이미지가 진짜인지 가짜인지 감별하는 감식자(Discriminator)를 서로 경쟁시켜 생성자가 감별자가 구분하기 어려운 진짜 같은 가짜를 만들게 하는 것임


Ø 2014년 이후 매주 새로운 갠(GAN) 논문들이 쏟아지고 있으며 최근에는 190편 이상이 보고되고 있는데, 전문가들도 모두 추적하기 힘들 정도로 다양한 응용기법들이 등장하고 있음


Ø 그 이름도 다양해 DCGAN, SRGAN, StackGAN, 3D-GAN, CycleGAN 200여 개의 서로 다른 기법이 GAN으로부터 개발되고 있어 GAN 기술은 앞으로 더욱 발전속도가 가속화될 전망


ž 가장 대표적인 GAN 기법은 DCGAN(Deep Convolutional Generative Adversarial Networks)으로로 엔비디아는 이를 이용해 유명 연예인의 이미지를 생성하는 기술을 공개하였음


Ø 엔비디아의 DCGAN은 유명 연예인뿐만 아니라 침실, 화분, , 소파, 버스 등 어떤 객체라도 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주었음



Ø DCGAN에서 생성자(Generator)는 매개변수에서 원래 이미지를 찾아 처리하는 디컨볼루션 네트워크(De-Convolution Network)로 구성되며, 입력된 노이즈(랜덤 신호)로부터 이미지를 생성함


<자료> Amazon.


[그림 2] DCGAN을 이루는 생성자와 감식자


Ø 감식자(Discriminator)는 매개별수를 응축 처리하는 컨볼루션 네트워크(Convolution Network)로 구성되며, 여기에 위조 이미지(Fake) 또는 실제 이미지(Real)을 입력함


Ø 감식자는 입력된 이미지를 처리하고 그것이 위조(Fake)인지 또는 실제(Real)인지 여부를 로지스틱 회귀분석법으로 판정하며, 이 과정에서 감식자가 역전파 알고리즘(Backpropagation)으로 진짜와 가짜의 차이값(Gradient)을 얻게 됨


Ø 이 차이값을 다시 생성자에 입력하여 진짜와 똑 같은 가짜를 생성하는 기술을 향상시키는데, 양측이 모두 향상되는 구조로 이 프로세스를 몇 번이고 되풀이 하여 감식자가 구분할 수 없는 진짜 같은 가짜 이미지를 생성하게 됨


Ø DCGAN의 생성자는 가짜 이미지를 생성할 뿐만 아니라 생성된 이미지를 연산 조작하는 기능을 가지고 있는데, 예를 들어 안경을 쓴 남자 - 안경을 쓰지 않은 남자 + 안경을 쓰지 않은 여자 = 안경을 쓴 여자와 같은 연산을 처리함


<자료> Radford et al.


[그림 3] DCGAN 생성자의 이미지 연산 조작


Ø 연산의 결과 안경 쓴 여성의 이미지를 9개 생성하는데, 맨 중앙 이미지가 구하려는 답으로 주위의 8개 이미지를 외삽법(extrapolation)으로 추론하여 중앙의 이미지를 생성한 것이며, 이런 연산 조작 기법을 이용하면 금발을 흑발로 바꿀 수도 있음


Ø 외삽법이란 어떤 주어진 구간의 밖에 존재하는 값을 추정하는 것으로 보외법(補外法 )이라고도 하며, 반대로 주어진 구간 내에 존재할 수 있는 값을 추정하는 것은 보간법(補間法)이라고 함


ž 회화 그림 관련 응용프로그램에 적용되고 있는 SRGAN(Super-Resolution Generative Adversarial Networks)은 저해상도 이미지를 고해상도 이미지로 변환하는 기법임


<자료> Ledig et al.


[그림 4] SRGAN으로 해상도 높이기


Ø [그림 4]의 맨 오른쪽이 원본 이미지인데, 예를 들어 이 이미지의 해상도를 4배로 늘리는 작업을 한다고 할 때 다양한 방법으로 시도가 가능함


Ø 맨 왼쪽 이미지는 기존에 주로 많이 사용하던 바이큐빅(bicubic)이라는 2차원 외삽법에 의해 해상도를 높인 것임


Ø 왼쪽에서 두번째는 이미지 수준을 예측하는 심층 레지듀얼 네트워크(Deep Residual Network)로서 딥러닝의 손실함수인 평균제곱오차(Mean Squared Error)에 최적화 되어 있는 SRResNet 기법을 이용해 해상도를 높인 것임


Ø 왼쪽에서 세 번째가 SRGAN으로 생성한 이미지인데, 물리적으로는 손실 압축에서 화질 손실 정보를 수치로 표현한 최대 신호 대비 잡음비(peak signal-to-noise ratio)가 높아 노이즈가 있지만, 외견상 구조적 유사성(Structural Similarity)는 원본 이미지에 가장 가까움


Ø SRGAN 기법은 이미지 초해상도(Image Super-Resolution)라고도 불리며 저해상도 이미지를 8K 모니터 등 고해상도 디스플레이에 표시하는 기술로서 주목받고 있음


ž 스택GAN(StackGAN, Stacked Generative Adversarial Networks)는 입력된 문장과 단어를 해석해 이미지를 생성하는 인공지능 기법임


Ø 예를 들어, 이 새는 파란색에 흰색이 섞인 짧은 부리를 가지고 있다라는 텍스트를 입력하면 StackGAN이 이를 이해하여 그에 맞는 이미지를 생성함


<자료> Zhang et al.


[그림 5] StackGAN


Ø GAN이 생성자와 감식자의 대립 네트워크를 생성하듯, StackGAN은 저해상도 이미지를 생성하는 Stage-I과 고해상도 이미지를 생성하는 Stage-II 2단계 네트워크 구성을 갖추고 있음


Ø DCGAN과 마찬가지로 StackGAN에서 생성된 이미지는 실제 조류가 아닌 StackGAN이 상상으로 생성한 것이며, 사진처럼 보이지만 그러한 새는 세상에 존재하지 않음


ž 3D-GANMIT AI 연구팀이 공개한 입체 모델 생성 네트워크로 가령 가구 사진을 통해 교육시키면 3D-GAN은 가구를 3차원으로 그릴 수 있게 됨


Ø 연구팀의 논문을 보면 이케아의 가구 사진을 3D-GAN에 입력하면 그 가구를 3D로 묘사하는데, 입력된 사진은 가구 전체를 담고 있지 않지만 3D-GAN은 이것을 상상에서 보충하여 3D 이미지를 생성해 내고 있음


Ø 3D-GAN 역시 3D 모델 이미지를 연산 조작할 수 있는데, 가령 선반 있는 낮은 테이블 - 선반 없는 높은 테이블 + 높은 테이블 = 선반이 있는 높은 테이블'과 같은 연산을 수행해 이미지를 생성함


<자료> Wu et al.


[그림 6] 3D-GAN을 이용한 3D 이미지 생성


Ø [그림 6]3D-GAN이 학습한 성과를 가시적으로 보여주기 위한 것이며, GAN이 학습한 성과를 매개 변수로 네트워크에 저장하는 것을 실제로 볼 수는 없음


Ø MIT는 현재 숨겨진 영역(Latent Space)의 매개 변수를 출력하는 3D-GAN의 학습 메커니즘을 검증하기 위한 연구를 수행하고 있음.


ž 사이클GAN(CycleGAN)은 인공지능이 자율적으로 학습하여 이미지의 스타일을 다른 스타일로 변환시킬 수 있는 기술임


Ø 입력된 이미지의 스타일을 다른 스타일로 변환하는 방법을 일반적으로 스타일 변환(Style Transfer)이라고 하는데, 이미지 사이의 스타일을 매핑하기 위해 최근 들어 심층신경망을 이용하는 경우가 많음


Ø 가령 심층신경망이 화가의 스타일을 습득하여 그 화풍으로 그림을 그리는 기술이 다수 발표되고 있는데, 사진을 입력하면 AI가 이를 모네 스타일 혹은 피카소 스타일의 유화로 변환해 주는 애플리케이션들이 대표적임


Ø 그러나 이 방식은 화가의 작품이나 풍경 사진 데이터 중 어느 한쪽 혹은 양쪽의 데이터가 거의 없는 경우, 작품과 사진이 짝을 짓게 하는 교육(Paired Training)을 어떻게 실행할 수 있을 것인가가 큰 과제가 됨


Ø 이에 비해 사이클GAN(Cycle-Consistent Adversarial Networks) 기술은 쌍을 이루는 교육 데이터가 필요 없는, 즉 작품-사진의 쌍을 지을 필요 없이, 모네의 유화나 풍경 사진을 각각 독자적으로 사용하여 네트워크를 교육시키는 짝 지우지 않는 교육(Unpaired Training) 기법임


Ø 교육된 사이클GAN은 예를 들어 모네의 작품을 입력하면 이를 사진으로 변환하거나 반대로 사진을 입력하면 모네의 유화로 변환시킬 수 있음


Ø 또한 얼룩말의 사진을 말의 사진으로, 말의 사진을 얼룩말의 사진으로 변환할 수 있는데 이를 객체 변형(object transfiguration)이라 하며, 또한 산의 여름 사진을 입력하면 눈 쌓인 겨울 산의 사진으로 변환할 수도 있는데 이는 계절 변환(season transfer)이라고 함


<자료> Zhang et al.


[그림 7] CycleGAN을 이용한 스타일 변환


Ø 사이클GAN은 네트워크가 자율적으로 학습하는 아키텍처로서 교사 없는 학습(Unsupervised Learning)으로 이어질 수 있는 기법으로 기대되고 있음


Ø 사이클GAN 기법은 버클리 인공지능 연구실이 주축이 되어 개발하고 있는데, 주 책임자인 중국인 주준이엔 외에 한국인 박사과정 학생 박태성이 참여하고 있기도 함


ž 디스코GAN(DiscoGAN)은 인공지능이 자율적으로 서로 다른 객체 그룹 사이의 특성을 파악하여 양자 사이의 관계를 파악할 수 있는 기술임


Ø 사람은 하나의 그룹과 다른 그룹의 관계, 예를 들어 가방 그룹과 신발 그룹의 관계를 경험적 혹은 직관적으로 파악할 수 있는데, 신경망이 이 관계를 파악하도록 하기 위해서는 태그가 붙어 있는 이미지를 대량으로 입력해 알고리즘을 교육할 필요가 있음


Ø 이에 비해 디스코GAN은 알고리즘이 양자의 관계를 자율적으로 이해하는데, 먼저 디스코GAN에 가방과 신발이라는 두 그룹의 이미지를 각각 입력해 각자의 특성을 가르치고 나면 이미지에 태그(가방이나 신발 등의 이름)가 붙지 않아도 알고리즘이 양자의 관계를 스스로 파악함


Ø 교육된 디스코GAN을 예를 들면, 가방 이미지를 입력하면 신발 이미지를 생성하거나, 파란색 가방 이미지에서 파란색 신발 이미지를 생성하고, 남성의 사진을 입력하면 여성의 이미지를 생성 할 수도 있음


<자료> Kim et al.


[그림 8] DiscoGAN을 이용한 스타일 변환


Ø 디스코GAN 역시 사이클GAN과 마찬가지로 양자의 관계를 정의한 짝 지운 데이터(Paired Data)가 불필요하고 각자의 특성 이미지만 교육시키면 네트워크가 자율적으로 학습하는 구조이기 때문에, 교사 없는 학습의 길을 여는 기술로 주목받고 있음


ž GAN은 기초 연구뿐만 아니라 비즈니스에 응용도 시작되고 있는데, 아마존이 GAN을 이용한 패션 사업의 구상을 밝힌 것이 대표적임


Ø 아마존은 산하 연구소인 Lab126에서 GAN의 개발을 진행하고 있는데, GAN이 유행 중인 패션을 통해 스스로 스타일을 학습하고 자신만의 패션을 생성하도록 하고 있는데, GAN이 패션 디자이너가 되어 인간을 대신해 새로운 디자인을 창조하게 하는 것임



Ø 패션 트렌드는 페이스북이나 인스타그램 등에 올라온 사진으로 학습하는데, 이 사진들을 GAN에 입력하면 GAN이 트렌드를 배워 독자적인 패션을 디자인하게 됨


Ø 또한 아마존은 인공지능 스피커 에코의 변형 버전인 에코 룩(Echo Look)을 통해 이용자를 촬영한 다음 패션에 대한 조언을 하는 서비스를 제공하고 있음


Ø 아마존은 에코 룩을 통해 이용자의 패션 취향을 이해한 다음, GAN이 개인에 특화된 디자인을 만들게 하는 계획을 갖고 있는데, GA이 생성한 디자인으로 만든 주문형 옷(On-Demand Clothing)이 이용자에게 배달되게 하는 사업 구조임


<자료> Amazon


[그림 9] GAN을 이용한 아마존의 에코 룩


ž 이처럼 200여 개에 달하는 GAN의 변형 기술 연구가 폭넓게 진행되고 있는 이유는 GAN이 현재 딥러닝이 안고 있는 많은 문제를 해결해 줄 강력한 무기를 제고할 수 있기 때문임


Ø 특히 교사 없는 학습(Unsupervised Learning)과 태그 없는 데이터(Unlabeled Data) 교육 분야에서 연구를 크게 진전시킬 단서를 제공할 것으로 전망되고 있는데, 사이클CAN이나 디스코GAN이 그러한 가능성을 잘 보여주고 있음


Ø 또한 엔비디아의 연구팀 역시 DCGAN 기술을 이용해 촬영한 것처럼 선명한 가상의 유명 연예인 이미지를 생성하고 있지만, 신경망 교육에는 태그가 붙어 있지 않은 연예인 사진을 사용하는 등 알고리즘이 자율적으로 배우는 기술은 빠르게 진화하고 있음


Ø 과학자들은 상상하는 모습을 모두 이미지로 만들어 낼 수 있는 이런 시스템들을 보며 인공지능 신경망이 세상을 해석하는 통찰력을 제공해 줄 것이라 기대하고 있음


Ø 비록 인공지능이 어떤 원리로 이미지를 저장하고 해석하는지 명확하지는 않더라도, 바둑 기사들이 알파고가 바둑의 본질을 보다 잘 이해한다고 인정하듯이, 과학자들 역시 컴퓨터가 생성해 내는 이미지가 실제 세상에서도 통할 수 있다고 생각하는 것임


ž GAN에 대한 기대가 높아지는 만큼 그 위험성에 대한 지적도 나오고 있는데, AI 뿐만 아니라 모든 기술이 그렇듯 이 기술을 어떻게 사용할 것인지는 결국 인간이 결정에 달려 있음


Ø 페이스북의 AI 연구소장인 얀 르쿤은 GAN과 그 파생 기술들은 지난 10년의 기계학습 연구에서 가장 뛰어난 성과라고 높이 평가하고 있음


Ø 한편, GAN의 위험성을 지적하는 목소리도 높아지고 있는데, 지금까지도 페이스북 가짜 사진이 문제가 됐지만 GAN의 등장으로 그 위험성이 더욱 높아짐에 따라 이제 뉴스에 게재되는 사진이나 비디오를 신뢰할 수 있는가 하는 질문이 제기되고 있음


Ø 소셜 미디어에 게재된 이미지가 증거 사진으로 사용되는 경우가 많지만, 이제 앞으로 무엇이 진실인지 알 수 없는 시대가 되면 그럴 수 있겠느냐는 것이며, 수년 내로 GAN을 통해 진짜 같은 가짜 비디오를 생성할 수 있게 된다면 혼란은 더욱 가중될 것이라는 경고임


Ø 이는 엄밀한 근거에 기반을 두어야 하는 과학에서 더욱 불거질 수 있는 문제인데, 그럴듯한 이미지나 동영상과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없는 위험이 생긴 것임


Ø 삶을 풍요롭게 하는 데 사용될 지 아니면 삶을 위험에 빠뜨리게 될 지, AI가 그러하듯 GAN이라는 혁신 기술 역시 양날의 검을 가지고 있다는 점을 항시 염두에 두고 바라볼 필요가 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1818호(2017. 10. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 하드웨어 신제품 발표, 제품 차별화 요소는 &lsquo;AI 최적화&rsquo;.pdf



[ 요 약 ]


구글이 작년에 이어 메이드 바이 구글(Made by Google) 행사를 통해 신제품을 대거 공개했는데올해 신제품 발표회의 테마는 하드웨어와 소프트웨어그 중에서도 인공지능(AI)의 통합이었음구글은 이번 신제품에 최신 AI 기술의 성과를 광범위하게 적용하며향후 AI가 기기 차별화의 결정적 요인이 될 것으로 바라보고 있음을 드러냈음스마트 기기의 하드웨어 차별성이 점차 엷어지는 가운데소프트웨어 최적화를 넘어선 AI 최적화가 제품 경쟁의 새로운 화두가 될 것으로 예상됨



[ 본 문 ]


ž 작년 10메이드 바이 구글(Made by Google) 하드웨어 신제품 5개를 일거에 출시했던 구글이 1년 만에 다시 신제품을 대거 발표하였음


Ø 이번에 발표한 신제품은 작년에 출시된 제품의 업그레이드 버전도 있지만, 구글로서는 새롭게 시도하는 제품들도 포함되어 있음


<자료> Google

[그림 1] Made by Google 2017


Ø 작년에 선보인 구글 자체 스마트폰 픽셀(Pixel)의 후속 버전으로 픽셀 2가 발표됐으며, 역시 작년에 선보인 인공지능(AI) 스피커 구글 홈(Google Home)은 이번에 구글홈 미니(Mini)구글홈 맥스(max)로 라인업이 확대되었음


Ø 올해 새롭게 선보인 제품으로는 액션 카메라인 구글 클립스(Google Clips)와 음악 재생 및 외국어 번역에 사용하는 블루투스 헤드셋 구글 픽셀 버즈(Google Pixel Buds), 그리고 크롬북의 상위 버전이라 할 수 있는 노트북 픽셀북(PIxelbook)이 있음


Ø 작년 10월에 이어 1년 만에 다시 하드웨어 발표회를 개최함으로써 향후 구글이 5월에 개최되는 연례 개발자 컨퍼런스 구글 I/O에 이어 10월의 신제품 발표회를 연례 행사화 할 가능성도 점쳐지고 있음


ž 이번 신제품 발표회의 테마는 하드웨어에 소프트웨어와 인공지능(AI)을 통합하는 것으로, 구글이 AI를 제품 차별화의 결정적 요인으로 바라보고 있음을 드러냄


Ø 구글홈 미니는 아마존의 소형 AI 스피커인 에코닷(Echo Dot)의 대항마 성격으로, 가격은 49 달러이지만 AI 가상비서 기능인 구글 어시스턴트(Google Assistant)가 탑재되어 있음


Ø 미니는 도넛 크기의 타원형 형상으로 상단에 LED가 탑재되어 기기 상태를 표시해주는데, 에코닷과 마찬가지로 가정 내 각 방에 하나씩 놓고 사용하는 것을 전제로 디자인 한 것으로 보이며, 구글이 집 전체 공간을 AI로 채우고 싶어함을 유추할 수 있음


Ø 맥스는 음질을 중요한 모델인 동시에 구글이 400 달러인 가격에 걸맞게 구글홈보다 20배 정도 성능이 강력하다고 소개할 정도로 AI 기반의 사운드 재생 기능이 뛰어난 기기임


Ø 2개의 4.5인치 우퍼를 내장해 깊이 있는 사운드 재생이 가능하며, 스마트 사운드(Smart Sound) 기능을 탑재하고 있어 주변 환경과 사용자의 컨텍스트에 맞게 음악을 재생할 수 있음



<자료> Google


[그림 2] 구글홈 미니(Mini)와 맥스(Max)


Ø 구글은 스마트 사운드 기능의 예로 AI가 방의 모양을 파악해 그에 적합한 사운드를 재생하거나, 아침 시간에는 볼륨을 좀 낮추어 재생하고 식기 세척기가 가동 중이어서 시끄러울 때는 볼륨을 높여 음악을 재생하는 것 등이 가능하다고 설명하고 있음


Ø 픽셀 2 스마트폰에는 지난 5월 구글 I/O에서 소개한 구글 렌즈(Google Lens) 기능이 처음으로 적용되었는데, 구글 렌즈는 구글 어시스턴트를 기반으로 렌즈에 비친 사물에 대한 정보를 불러들인 후 사진에 담긴 물체나 글자를 인식해 알려주는 AI 카메라임


Ø 픽셀북은 노트북과 태블릿 PC를 결합한 것으로 역시 구글 어시스턴트가 적용되어 있으며, 가령 픽셀북 펜을 이용해 디스플레이 화면 안의 특정 부분에 원을 그리면 구글 검색 엔진이 그 원안의 물체를 인식하고 관련된 정보를 검색해 줌


ž 구글이 AI를 신제품의 차별화 요소로 삼는 이유는, AI가 비단 구글의 하드웨어 신제품뿐 아니라 스마트 홈 생태계의 허브 기능을 담당할 것으로 보기 때문임


Ø 구글홈의 핵심 기능인 구글 어시스턴트는 스마트폰(안드로이드와 iOS), 스마트 워치(안드로이드 웨어), 텔레비전(안드로이드 TV) 등과도 연계할 수 있으며, 가상 비서의 인터페이스는 급속하게 음성으로 전환하고 있음


Ø 구글 어시스턴트는 생태계를 급속히 확장하고 있는데, 현재 스마트 홈 관련 기업 네스트(Nest), 필립스(Philips), 스마트씽스(SmartThings) 등이 내놓은 1천여 제품과도 연계가 가능함


Ø 특히 알파벳 산하의 네스트와 구글홈의 연계가 더욱 강화되고 있는데, 이번 기능 업그레이드로 네스트의 보안 카메라인 네스트 캠(Nest Cam)을 구글홈에서 조작할 수 있게 되었음


<자료> Google


[그림 3] 구글홈과 네스트 캠의 연계


Ø 이로써 가령 현관에서 무슨 소리가 나는 것 같을 때 구글홈에게 현관 앞 상황을 TV로 보여줘라고 명령하면, 구글홈이 네스트 캠에 찍힌 영상을 TV로 디스플레이 하는 것이 가능해졌음


Ø 또한 네스트의 스마트 초인종인 네스트 헬로(Nest Hello)도 구글홈에서 조작할 수 있게 되었는데, 네스트 헬로는 얼굴 인식 기능으로 방문자를 식별할 수 있는 친숙한 얼굴(Familiar Faces)라는 기능을 탑재하고 있음


Ø 따라서 누군가 초인종을 누르면 네스트 헬로가 그 인물을 인식해 구글홈에 알려주고, 구글홈이 이용자에게 방문자의 이름을 알려주는 것이 가능하며, 이런 기능을 활용해 네스트와 연계한 주택의 보안을 구글홈에서 집중 관리하는 것이 가능함


Ø 구글 어시스턴트가 허브가 되는 스마트 홈은 개인화 서비스도 가능한데, 보이스 매치(Voice Match) 기능을 통해 동시에 여섯 명의 목소리를 구분해 알아 듣고 개별 대응이 가능하기 때문


Ø 개인 맞춤형 서비스의 예로 이번 신제품 발표회에서는 에브리데이 루틴(Everyday Routines) 기능이 소개되었는데, 이는 한 단어만 듣고 그 사람과 관련된 여러 가지 명령을 동시에 실행하는 것으로 구글의 지향점을 잘 보여주고 있음


Ø 가령 식구들 중 회사로 출근을 해야 하는 사람이 있을 경우, 이 사람이 아침에 일어나 좋은 아침이라고 한 마디만 하면, 구글홈이 그의 하루 일정을 확인하고 일정에 따른 이동 경로의 도로 정체 정보를 알려주며 주요 뉴스를 읽어주도록 설정할 수 있음


Ø 또한 아이들이 구글홈에게 우리 게임하자라고 말을 할 경우, 아이들의 목소리를 인식하여 아이들이 안전하게 즐길 수 있는 게임을 실행하도록 설정할 수도 있음


ž 구글은 AI가 스마트 홈의 허브로 선택될 수 있도록 인간 친화적인 특성을 띠게 하는 데도 공을 들였는데, 여기에는 딥마인드(DeepMind)의 새로운 음성합성 기술이 기여를 하였음


Ø 구글홈의 음성 발화는 고급 AI가 적용되어 매우 매끄럽게 들리는데, 여기에는 딥마인드가 지난해 발표한 새로운 음성 합성(Speech Synthesis) 기술이 관여되어 있음


Ø 딥마인드가 새롭게 발표한 웨이브넷(WaveNet)은 심층신경망(Deep Neural Network)을 이용해 기계음이 인간에 가깝게 자연스럽게 발성할 수 있게 해주는 음성 합성 기술임


Ø 일반적으로 음성 합성은 말을 아주 작은 단위로 나눈 다음 필요한 음운, 음소, 단어에 맞게 조립하는 음성 연결 합성(Concatenative TTS)이라는 기법 사용하는데, 이 때문에 기계음은 말 그대로 기계적이고 어색한 톤으로 발화가 됨


Ø 딥마인드는 기존의 방식과 전혀 다른 접근 방식을 취했는데, 웨이브넷은 많은 수의 음성 샘플을 배우고 음성 파형(Audio Waveform)을 잘게 세분화 해 분석함으로써 음성 만으로는 알 수 없었던 숨 고르기나 단어 혹은 문장끼리 합쳐지는 방식까지 이해가 가능하게 하였음


Ø 구체적으로 살펴 보면 컨볼루셔널 신경망(Convolutional Neural Network, CNN)이 발화의 구성을 파악하여 어떤 음색(Tone) 후에 어떤 음색이 이어지는지, 어떤 파형(Waveform)이 자연스러운지 학습하게 되며, 이를 토대로 아주 부드러운 음성을 합성하게 됨


Ø 딥마인드는 웨이브넷이 인간의 미묘한 톤이나 억양, 말할 때의 속도 등을 그대로 재현할 수 있다고 설명했는데, 음성 연결 합성 방식이나, 인간 음성 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 기술과 블라인드 테스트를 한 결과 인간의 실제 음성에 육박하는 수준의 높은 점수로 1위를 차지했다고 함


Ø 단 작년 발표 시점에서 웨이브넷은 음성 합성을 빠르게 수행 할 수 없어 0.02 초의 오디오를 생성하는데 1 초가 필요했으나, 그 동안 알고리즘 개선을 통해 빠른 음성 합성까지 가능해졌다고 하며, 현재 1 초 길이 오디오를 50 밀리 초에 생성하므로 실시간 사용이 가능하다고 함


[1] 딥마인드 웨이브넷과 음성 합성 기술의 비교

 

Concatenative

Parametric

WaveNet

인간의 음성

미국식 영어

3.86

3.67

4.21

4.55

만다린 중국어

3.47

3.79

4.08

4.21

<자료> DeepMind


ž 하드웨어들의 주요 기능이 점차 천편일률적으로 되어 가는 상황에서, 이번 구글의 신제품 발표회는 향후 AI 최적화가 스마트 기기의 시장 성패를 가르게 될 것임을 강하게 시사


Ø 구글홈을 비롯해 이번에 구글이 발표한 제품들의 배후에는 최신 AI 기법이 광범위하게 사용되고 있는데, 이용자의 음성을 인식하는 데뿐만 아니라 음성 합성 역시 AI 없이는 매력적인 특색을 실현할 수 없음을 보여주고 있음


Ø 소프트에어 기업인 구글이 자체 하드웨어 생산에 나선 데에는 여러 가지 이유가 있겠으나, 하드웨어를 통한 차별화는 이제 한계에 다다르고 소프트웨어를 통한 차별화, 그 중에서도 AI에 의한 차별화가 제품 경쟁력의 핵심 요소가 될 것으로 판단했기 때문이라 볼 수 있음


Ø 가령 지금까지 스마트폰의 경쟁 구도는 애플의 소프트에어 최적화와 삼성전자의 하드웨어 고사양화로 요약할 수 있는데, 아이폰이 상대적으로 낮은 하드웨어 사양을 소프트웨어 최적화로 커버했다면, 갤럭시 폰은 소프트웨어의 단점을 하드웨어 혁신으로 커버하는 전략이었음


Ø 그러나 최근 들어 아이폰이나 갤럭시 폰을 비롯해 대부분의 스마트폰 사양들은 유사해지고 있는데, 구글은 이를 하드웨어 혁신의 속도가 둔화된 것, 즉 하드웨어 부문을 직접 관리하는 부담이 적어지는 신호로 받아들였을 가능성이 큼


Ø 따라서 보다 중요해지는 것은 애플과 같은 소프트웨어 최적화 역량인데, 구글은 안드로이드 OS와 하드웨어의 최적화에 덧붙여 AI 최적화를 무기로 하드웨어 비즈니스에 뛰어들려는 것으로 해석할 수 있음


Ø 하드웨어 경쟁력보다 소프트웨어 경쟁력이 압도적 이윤을 가져다 줄 수 있다는 점은 이미 애플과 삼성전자의 경쟁에서 확인된 바 있거니와, 구글은 이에 더해 AI가 제품의 차별화와 이윤을 가져다 줄 것이라 주장하는 것임


Ø 구글이 던진 AI 최적화의 화두는 스마트 디바이스 시장의 경쟁 지형을 새롭게 재편할 가능성이 크며, 디바이스 제조업체들 앞에 쉽지 않은 숙제가 던져진 셈

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1804호(2017. 7. 12 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

예술 창작 활동의 대중화를 가져올 인공지능 프로그램들.pdf



ž 구글은 바흐의 음악을 기계학습 시킨 후 바흐 풍의 클래식 곡을 자동으로 작곡해 주는 인공지능(AI) 프로그램을 공개하고 있음


Ø 구글이 공개한 클래식 작곡 프로그램은 예술 창작에 특화된 인공지능 알고리즘을 개발하려는 구글 마젠타(Magenta) 프로젝트의 일환임


Ø 마젠타 프로젝트는 구글이 알파고를 개발한 딥마인드(DeepMind)와 협력을 통해 새로운 음색, 새로운 악기, 새로운 음악을 만들려는 시도임


Ø 마젠타 프로젝트는 우선 신경(Neural)과 신써사이저(Synthesizer)의 합성어인 엔신쓰(NSynth)라는 도구를 만들고, 1천여 가지 악기와 30만여 가지의 음이 담긴 데이터베이스를 구축한 후 이를 알고리즘에 학습시켜 새로운 소리와 음악을 만들어 내고 있음


Ø 베이스기타와 플룻, 하프와 클라리넷을 합성하는 방식으로 이전에 없던 소리를 만든다는 것인 것, 이를 통해 일렉트릭 기타처럼 새로운 음악 장르를 여는 계기를 만들 수 있기를 기대한다는 것이 구글측의 설명임


Ø 마젠타 프로젝트는 소리 합성의 기능뿐 아니라 뮤지션들이 연주했던 곡을 기계학습 하여 기초적인 수준이나마 스스로 곡을 작곡(합성)할 수 있는 단계에 이르렀는데, 바흐 풍의 음악 작곡은 이런 과정을 거쳐 가능해졌음




ž 구글은 마젠타 프로젝트를 통해 만든 작곡 알고리즘과 엔신쓰 도구를 오픈소스 소프트웨어 허브인 깃허브에 공개하여 누구나 테스트해 보도록 하고 있음


Ø 직접 시연해 보려면 마젠타 프로젝트가 컨테이너 관리 소프트웨어인 도커(Docker)용으로 제공하는 미리 설정된 환경을 이용해야 하는데, 작동 환경은 리눅스 우분투(Ubuntu 16.04 LTS)


Ø 마젠타는 단음의 선율과 화음을 수반한 곡 등을 자동으로 생성하는 AI를 탑재하고 있는데, 명령어를 통해 단음의 멜로디를 미디(MIDI) 형식으로 출력해 윈도우의 미디 플레이어에서 재생할 수도 있고, 화음을 출력하는 학습된 모델을 이용해 작곡을 시킬 수도 있음



Ø 작곡의 경우 처음 몇 음표만 입력하면 알고리즘이 기계학습 한 결과를 토대로 그 화음에 맞는 곡을 자동 생성하는 것인데, 구글은 이번에 마젠타 프로젝트를 발표하며 첫 4개 음표를 주고 생성한 80초짜리 피아노곡을 공개한 바 있음


Ø 직접 해보고 싶다면, 가령 첫 부분에 연주하는 화음을 「--primer_pitches = [60 64 67]」라는 명령어로 표현할 수 있는데, 60 C(), 64 E(), 67 G()을 의미하며, 64 대신 63을 입력하면 반음 떨어지는 단조의 음으로 화음을 시작하는 곡을 만들 수 있음


Ø 첫 화음을 설정하고 나면 「--inject_primer_during_generation」 명령어 옵션을 사용하여 작곡을 시킬 수 있는데, 말 그대로 첫 화음을 작곡 중에 삽입하라는 뜻으로, 지정된 멜로디 주제가 반복적으로 전개되는 곡이 만들어지게 되는 것임


<자료> ITPro

[그림 1] 마젠타 음악 AI의 작곡 명령어



Ø 마젠타의 방식은 AI가 학습된 대로 곡을 합성해 내는 것이지만, 이용자가 설정한 주제 화음을 바탕으로 곡을 전개하는 것이므로, 이용자와 AI가 콜라보를 하는 듯한 느낌을 주게 되며, 음악을 전혀 배우지 않은 사람들이라도 작곡에 재미를 갖게 할 수 있음


<자료> ITPro

[그림 2] 마젠타 AI 작곡 음악을 악보로 출력


ž 마젠타가 음악 분야 창작 지원 도구라면, 스타트업 프리퍼드 네트워크(Preferred Networks)는 선으로 그린 일러스트에 자연스럽게 색을 입혀 주는 회화 AI를 공개하고 있음


Ø 이 스타트업이 개발한 페인트체이너(PaintsChainer)는 자체 개발한 기계학습 라이브러리인 체이너(Chainer) 상에서 구동되는 프로그램과 학습모델로 웹사이트에서 시험해 볼 수 있음


Ø 페인트체이너 역시 마젠타와 마찬가지로 컨테이너 관리 소프트웨어인 도커를 이용해 클라이언트를 설정한 후 시작해야 함


Ø 도커의 작동 환경은 리눅스 배포판인 우분투(Ubuntu 16.04 LTS)이며, 도커 설치 후 명령어를 통해 페인트체이너의 실행 환경을 다운로드 하여 시작하는데, PC CPU로만 처리하는 컨테이너를 작동시키는 경우와 엔비디아의 GPU를 사용하는 경우의 실행 명령어가 다름


Ø 자동 착색만 하는 경우라면 CPU만으로도 수십 초 정도면 처리가 끝나기 때문에, 단지 몇 군데 색을 입히려는 정도라면 CPU 버전이 간편하다고 함


Ø JPEG PNG 포맷의 흑백 이미지를 참조 버튼을 눌러 불러오면 페인트체이너가 자동으로 색을 입혀 주게 되며, 출력 결과는 폭 512도트로 크기가 자동 조정되는데, 512 도트보다 큰 이미지의 경우 크기 조정에 따른 선의 긁힘이나 소실이 발생하고 착색이 잘 안 될 수 있다고 함


Ø AI가 자동으로 색을 입힌 결과가 취향에 맞지 않을 경우 임의의 위치에 펜 도구로 색칠을 하여 AI힌트를 줄 수 있는데, 색칠을 다 할 필요는 없고 점과 선으로 표시해 주는 정도로 충분하며, 힌트를 주는 위치에 따라 전체 그림의 성향이 확 바뀔 수 있다고 함


<자료> CreativeAI

[그림 3] 페인트체이너를 이용한 자동 채색



ž 마젠타나 페인트체이너 같은 자동 창작 프로그램은 보다 많은 사람이 창작에 재미를 느낄 수 있게 할 수 있으므로 예술의 대중화라는 관점에서 긍정적 효과를 기대할 수 있음


Ø 인공지능을 작곡, 회화, 시나리오 및 영화제작 등 창작 영역에 접목하려는 시도는 이미 다양한 프로젝트들을 통해 시도되고 있고 기대 밖의 성과를 거둔 사례들도 소개되고 있음


Ø 이런 시도에 대해 창의성이 바탕이 되는 예술 분야마저 AI가 인간을 밀어내는 것이 아니냐는 우려도 있지만, 예술을 좀 더 재미있게 받아들이게 되는 긍정적 효과를 기대할 수도 있음


Ø 음악 작곡이나 그림 그리기를 자신과 전혀 무관하게 생각하던 사람이라도 AI의 도움으로 직접 활동에 참여를 하며 재미를 느끼게 된다면, 예술 활동에 좀 더 많은 시간과 비용을 투자하게 될 것이고 이는 결국 예술산업의 발전으로 이어지는 효과를 거둘 수 있음


Ø 예술의 지속성을 위해서는 창작자들의 끊임없는 창의성 발현과 함께 그 창작물을 기꺼이 즐겨줄 예술 소비자들이 존재가 필수적인데, 이는 예술의 대중화를 통해서 가능한 것이고, 예술 소비의 저변 확대 측면에서 본다면 AI 기반 창작 프로그램들은 큰 기여를 할 수 있을 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1799호(2017. 6. 7 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI가 AI를 개발한다, 구글의 전사 인공지능 프로젝트 Google ai.pdf



[ 요 약 ]


작년 11인공지능 퍼스트(AI First) 기업을 선언했던 구글의 선다 피차이 CEO는 올해 구글 I/O 컨퍼런스에서 그간의 성과를 설명하며 인공지능을 구글의 모든 제품과 서비스의 기반으로 삼는다는 전략 하에 Googl.ai 프로젝트를 진행 중이라고 설명. Google.ai의 연구 테마에는 사람이 아닌 인공지능이 인공지능의 알고리즘을 설계하는 AutoML이 포함되어 있으며, 이 연구 성과를 바탕으로 구글의 제품을 개선하고 인공지능 연산 처리를 위한 새로운 데이터센터를 구축한다는 계획


[ 본 문 ]

ž구글은 최근 개최된 연례 개발자 컨퍼런스 ‘Google I/O 2017’에서, 전사 차원의 인공지능(AI) 전략으로 ‘Google.ai’ 프로젝트를 진행 중이라고 공개


Ø 작년 11월 제품 발표회에서 인공지능 최우선(AI First) 기업을 선언한 바 있는 선다 피차이 CEO는 올해 I/O 컨퍼런스 기조연설에서 전사 차원의 AI 전략을 실행 중에 있다고 밝히며 프로젝트의 세부사항에 대해 발표하였음  구글은 최근 개최된 연례 개발자 컨퍼런스 Google I/O 2017에서, 전사 차원의 인공지능(AI) 전략으로 Google.ai 프로젝트를 진행 중이라고 공개

<자료> Engadget


[그림 1] Goolge.ai를 발표하는 선다 피차이 CEO


Ø 현재 진행 중인 전사 프로젝트의 명칭은 Google.ai로 고도의 AI를 개발하고 이를 구글의 모든 제품과 서비스의 기반 기술로 삼는다는 전략을 구현한 것임


Ø 진행 중인 Google.ai 프로젝트는 「기초연구」, 「도구」, 「응용기술」의 세 분야로 구성되어 있는데, 기초 연구는 고도의 AI 기술의 개발을, 도구는 AI를 실행하는 프로세서 등에 기반한 AI 데이터 센터의 제공을, 응용기술은 AI를 통한 구글 서비스의 개선을 목표로 하고 있음


ž 「기초연구」 분야에서 구글이 주목하고 있는 연구 테마는 AutoML인데, 이는 AI AI를 생성하는 기술의 개발을 통해 알고리즘 개발 임무를 인간에서 AI로 이관하려는 것임


Ø AutoML은 기계학습(Machine Learning)을 자동 생성하는 연구, 다시 말해 알고리즘이 다른 알고리즘을 생성하는 기법을 개발하는 것으로 [그림 2]AI AI를 생성하는 것을 보여주는데, 왼쪽이 인간이 만든 AI 알고리즘이며 오른쪽은 그 AI가 만들어 낸 딥러닝 알고리즘임


Ø [그림 2]의 사례는 처리 결과를 다음 단계로 루프시키는 반복(Recurrent) 구조의 네트워크로 시간에 의존하는 언어처리 등에 따라 언어 처리 등에 사용될 수 있는데, 이 알고리즘에 한 단어를 입력하면 다음 단어를 예측해 줌


<자료> Google Research Blog


[그림 2] 사람과 인공지능이 설계한 기계학습 알고리즘 아키텍처 비교


Ø AI가 생성한 알고리즘 아키텍처를 보면 사람이 설계한 것과 동일한 특징을 공유하기도 하지만, 증식적인 조합을 구현하기 위해 새로운 엘리먼트를 구사하는 것처럼 주목할 만한 차이를 보이는데 이런 방식은 사람이라면 반복 구조의 네트워크에서 대개는 사용하지 않는 것임


Ø 보통 알고리즘의 개발 연구자의 경험과 감이 크게 작용하며, 기존에 확립된 기술을 기반으로 개선점을 찾아 새로운 모델을 생성하게 됨


Ø 반면 AI는 수 많은 알고리즘을 생성하고 이들의 실제 학습 수행 정도를 파악하는 방법, 즉 피드백을 바탕으로 정확한 알고리즘을 만드는 방법을 학습함


Ø 인간은 소위 정석이라 불리는 것들을 축적하지만, AI는 때로 사람이 생각하기에 상식을 뒤집는 방식을 생성하는데, 선다 피차이 CEO의 설명에 따르면 인간이 생성한 알고리즘보다 AI 생성한 알고리즘의 정밀도가 더 높다고 함


Ø AutoML는 구글의 딥러닝 AI 리서치 센터인 구글 브레인(Google Brain)에서 연구 중이며 AI가 최적의 네트워크 구성을 자동으로 설계하는 것을 목표로 하는데, 이는 딥러닝 알고리즘 설계의 임무를 연구원에서 AI로 이관시킴을 의미함


Ø 이는 어찌 보면 AI 연구자 자신도 AI의 진화로 인해 일자리를 잃게 됨을 의미하나, 현재는 AI 연구자의 수가 절대적으로 부족하기 때문에 AutoML은 인력 부족을 해소하는 수단이 되며, 구글은 AI로 대체 가능한 연구인력을 AI 클라우드 개발로 돌려 관련 사업을 강화한다는 계획임


ž 「도구」 분야와 관련해서는 대규모 연산을 위한 확장성에 초점을 맞춘 인공지능용 프로세서로 Cloud TPU를 발표하였음


Ø TPU(Tensor Processing Unit)는 기계학습 연산 전용 프로세서인데, 텐서(Tensor) Trillion Sensor의 합성어로 향후 전세계가 수조 개의 센서들을 연결될 것이란 뜻을 담고 있음


Ø Cloud TPU 2세대 TPU로서 대규모 연산을 위한 확장성을 중시한 설계로 되어 있으며, 성능은 180Tflops(테라플롭스)64GB의 고속 메모리를 탑재한다고 함


Ø 플롭스(FLOPS, FLoating point OPerations per Second)는 컴퓨터의 성능을 수치로 나타내는 단위로 1초 동안 수행할 수 있는 부동소수점 연산의 횟수를 의미하며, 테라플롭스는 1초에 1조 번(1012) 연산 처리가 가능하다는 뜻


Ø 64개의 Cloud TPU가 보드에 탑재되면 TPU 파드(Pods)를 구성하게 되는데, 파드의 최대 성능은 11.5 Pflops(페타플롭스, 테라플롭스의 1천 배)로 이는 수퍼 컴퓨터 수준의 성능임



<자료> Engadget


[그림 3] 인공지능용 프로세서 Cloud TPU() AI 퍼스트 데이터센터(아래)


Ø TPU 파드는 랙에 탑재되어 구글 연산 엔진(Google Compute Engine)으로 제공될 것이며, 구글은 Cloud TPU를 이용한 AI 처리 전용 데이터 센터를 구축할 계획인데, 이를 AI 최우선 데이터센터(AI First Datacenter)라 부르고 있음


Ø Cloud TPU 발표와 동시에 구글은 텐서플로우 리서치 클라우드(TensorFlow Research Cloud)를 발표했는데, 이는 Cloud TPU 1천 개 연결한 연구자들을 위한 클라우드 서비스로 고도의 AI 기술 개발을 위해 무상으로 제공한다고 함


ž 「응용기술」 분야와 관련해서는 인공지능을 카메라에 응용한 신제품 구글 렌즈(Google Lens)를 적용 사례로 소개하였음


Ø 구글 렌즈는 카메라의 렌즈를 AI로 구성한다는 아이디어로, 카메라의 기능과 성능을 AI 소프트웨어가 결정한다는 뜻이며, 사진 촬영을 시작하면 카메라가 AI를 이용해 이미지를 재구성함


<자료> Google.ai


[그림 4] 카메라에 AI를 결합한 구글 렌즈


Ø 가령 [그림 4]처럼 야간 촬영 시 이미지에 노이즈가 있을 경우 AI가 이를 보정하는데, 셔터를 누르면 카메라가 자동으로 여러 차례(16, 32회 등) 빛에 노출시킨 후 노이즈를 제거하는 것을 반복하게 됨


Ø 또한 철조망 뒤에서 사진을 찍을 경우 AI가 자동으로 철조망을 제거하는 이미지 인페인팅(Image Inpainting) 기능도 갖추고 있음


Ø 구글 렌즈는 카메라에 비친 객체를 판정하는 기능이 있어, 가령 꽃 촬영에 구글 렌즈 기능을 선택하면 꽃의 종류가 무엇인지를 식별하고, 길거리 상점을 촬영하면 그 간판의 이름을 인식한 후 관련된 정보를 함께 표시해 줌


Ø 즉 카메라가 이미지 검색의 입력 장치가 되는 것으로 이는 구글 고글(Google Goggles) 등에서 이미 제공되는 기능이지만, AI를 이용하여 그 기능성과 인식 정확도를 향상시켰음


ž 드러나 보이지 않는 곳에서 AI를 이용해 구글의 서비스를 폭넓게 지원하는 응용 사례로는 구글 지도와 지메일을 소개하였음


Ø 카메라의 이미지 인식 기능을 AI와 접목하는 기술은 구글 스트리트 뷰(Street View)와 구글 지도(Google Maps)에도 적용되어 활용되고 있음


Ø 스트리트 뷰는 촬영된 이미지에서 건물에 부착되어 있는 숫자를 읽어 식별할 수 있었는데, 지금은 AI가 숫자뿐만 아니라 거리의 이름도 읽어 정확히 위치를 파악할 수 있음


Ø 표지판이 선명하게 찍혀 있지 않은 경우라도 샘플이 네 장 AI가 정확하게 판정할 수 있다고 하는데, 구글은 이 기술을 스트리트 뷰로 촬영한 800억 장의 이미지에 적용하여 위치를 파악하고 있기 때문에 구글 지도의 정확도를 크게 향상시켰다고 함


Ø 이미지 인식 기능의 활용은 와이파이 접속에도 이용할 수 있는데, 스마트폰으로 와이파이 네트워크 이름과 패스워드를 스캔하면 자동으로 와이파이에 연결하도록 도와줄 수 있음


Ø 스마트 회신(Smart Reply) 기능이 탑재된 지메일 역시 AI의 지원으로 구글 서비스 편의성을 강화한 대표적 사례인데, AI는 수신한 메일의 제목과 내용을 파악하여 이용자를 대신해 최적의 회신 문장을 생성한 다음 이용자에게 제시함


Ø 이용자는 AI가 제시한 세 개의 회신 문장 중에서 가장 낫다고 생각하는 하나를 클릭하는 것만으로 메일 회신을 할 수 있는데, 스마트 회신 기능이 등장한 지는 1년이 넘었으며 지금은 다소 복잡한 내용의 메일에도 회신 문장을 생성할 수 있는 수준이 되었음




<자료> Engadget


[그림 5] 인공지능 활용한 이미지 인식 기능 개선()과 이메일 자동 회신(아래)


Ø 이처럼 인공지능은 겉으로 드러나게 또는 드러나지 않게 기능성 향상에 기여하고 있으며, 구글은 이번 개발자 컨퍼런스에서 향후 자신들의 모든 제품과 서비스에 AI를 적용해 개선시키겠다는 목표를 밝힌 것임


ž 「응용기술」 분야와 관련해서 또 하나 주목할 것은 구글이 AI를 의료 분야에 적용할 계획임을 명시했다는 것으로, 향후 IBM 및 애플과 치열한 기술 경쟁을 예고하고 있음


Ø 구글은 이미 AI를 사용하여 당뇨 망막증(Diabetic Retinopathy) 판정 시스템을 발표한 바 있는데, 이 병은 당뇨 합병 질환으로 실명 위기까지 이어질 가능성이 높은 것으로 알려져 있어, 정확한 판정 시스템의 개발은 질병의 조기 발견과 치료에 상당한 기여를 할 것으로 기대되고 있음


Ø 구글에 따르면 AI는 이미 의사보다 높은 정확도로 당뇨 망막증 진환을 감지해 내는 데 성공했으며, AI를 의료 이미징에 활용할 수 있다는 것이 증명되자 구글은 자회사 딥마인드(DeepMind) 함께 의료 분야에서 AI 연구 개발을 중점적으로 추진하고 있음


<자료> Google


[그림 6] AI를 이용한 의료 이미지 판독


Ø 구글이 개발한 이미지 인식 알고리즘인 구글 인셉션(Google Inception)은 세계 최고 수준의 성능으로 평가받고 있는데, 구글은 누구나 자유롭게 이 소프트웨어를 이용하여 진단 및 치료 솔루션을 개발할 수 있도록 공개하고 있음


Ø 가령 구글 인셉션 소프트웨어를 피부암의 판정에 응용하면 전문의보다 정확하게 질병을 판정 할 수 있는 것으로. 나타났는데, 특별한 알고리즘이 필요하지 않아 암 탐지 시스템의 개발 문턱이 극적으로 낮아졌기 때문에 이미 피부암 판정 스마트폰 앱까지 등장하고 있는 상황


Ø IBM 왓슨의 선도적 비즈니스가 성과를 거두며 의료 분야에서 AI 활용에 대한 평가와 전망은 매우 긍정적인데, 구글과 기술 경쟁, AI 기반 의료 기술의 공개화 등 흐름과 맞물린다면, 의료 분야에서 AI 기반의 혁신 사례는 잇따라 등장할 것으로 예상됨


ž 구글은 자신들의 모든 영역에 AI를 적용하고자 하는 AI 최우선 기업으로서 그 성과를 어필했지만 이제 시작일 뿐이며, 시장 지향 AI를 향한 본격적 행보 선언에 그 의의가 있음


Ø 구글은 인공지능 퍼스트를 모토로 내세운 기업으로 그간의 연구개발 성과와 응용사례를 소개했지만, 이번 연례 개발자 컨퍼런스에서 새로운 비전을 제시하는 놀라운 기술과 제품은 등장하지 않았다는 평가가 지배적


Ø 구글 렌즈 등의 기능도 이미 일부 활용되고 있는 기술이고, AI를 음성 인식에 응용해 고급 자연언어처리 접목한 인공지능 스피커 '구글 홈이나 가상 비서 구글 어시스턴트도 이미 소개된 기술일뿐더러 이 분야에서는 오히려 아마존 에코와 알렉사가 시장을 선점하고 있는 상황임


Ø 이는 세계 최고 수준의 AI 기술을 보유하고 있는 구글이지만, 의료와 같은 특수 분야를 차치하고 나면 일상적으로 소비자들이 AI의 혜택을 느낄 수 있는 제품과 서비스를 개발한다는 것은 쉽지 않은 일이라는 것을 보여주는 대목


Ø 기술 특이점(singularity) 접근 전망과 함께 하루가 다르게 고도화되어 가고 있는 AI를 어떻게 제품과 서비스에 연결시킬 것인가에 대한 질문도 계속해서 나오고 있으며, 이에 대한 대답을 내놓는 것은 구글뿐 아니라 IT 업계가 공통으로 안고 있는 과제일 것임


Ø 그러나 어쩌면 소비자의 욕구와 잠재 욕망을 자극할 수 있는 AI 기반 제품과 서비스의 개발 역시 사람이 아닌 인공지능 스스로가 만들어 낼 지도 모를 일이며, 그런 면에서 AI AI를 만든다는 모토를 제시하고 있는 구글이 접근방식에서는 유리한 상황이라 할 수 있겠음