※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

딥러닝에도 보안 문제, 인공지능(AI)을 속이는 수법에 주의할 필요.pdf



ž 인공지능(AI)이 판단을 잘못하면 큰 사고를 일으킬 수 있기 때문에 구글은 AI의 신뢰성 훼손 시도에 대한 대응책 마련에 적극 나서고 있음


Ø 지난 10월 실리콘밸리에서 개최된 딥러닝 컨퍼런스 베이런(BayLearn) 2017에서는 딥러닝에 존재하는 보안 문제가 큰 테마로 다루어졌음


Ø 딥러닝은 데이터로부터 규칙을 도출하기 위해 신경망을 훈련시키는 과정을 거치는데, 이때 사용되는 데이터에 잘못된 것을 섞거나 데이터에 일종의 노이즈를 추가함으로써 AI에 오류를 발생시킬 수 있다는 것임


Ø 구글의 AI 연구 부문인 구글 브레인의 이언 굿펠로우는 앞으로 AI를 어떻게 방어할 것인가가 큰 과제가 될 것이며, 구글은 AI의 신뢰성 확보를 위해 대책 마련에 나설 것이라 밝힘


ž 이언 굿펠로우에 따르면 기계학습 기반의 이미지 인식 기술에 대한 공격 방법 중 대표적인 것이 적대적 사례(Adversarial Example) 기법임


Ø 적대적 사례 공격은 이미지 인식 모델에 인식시키는 데이터(example)에 일종의 노이즈를 추가함으로써 이미지의 피사체를 오인시키는 공격 방법임


Ø 노이즈가 더해진 이미지는 사람의 눈에는 노이즈를 더하기 전과 변함없는 것처럼 보이지만, 이미지 인식 모델에는 전혀 다른 이미지로 비춰진다고 하는데, 노이즈가 가해진 이미지를 적대적 사례라고 부름



Ø 적대적 사례 공격이 무서운 이유는 악용하기가 용이하면서도 일상 생활에 미치는 영향이 클 수 있기 때문인데, 가령 자율운전 차량에 교통 표지판을 잘못 인식하게 하는 공격이 가능함


Ø 워싱턴 대학의 이반 에브티모프 등이 20177월에 발표한 연구 결과에 따르면 교통 표지판에 정교하게 만든 스티커를 붙여 넣으면 이미지 인식 모델이 속아 정지 표지판을 속도 제한 표지판으로 잘못 인식하게 되었다고 하는데, 이는 자율운전의 안전성에 직결되는 문제임


<자료> ITPro


[그림 1] 자율운전차량에 대한 적대적 사례 공격


ž 또 다른 대표적 공격 방법으로는 이미지 인식 모델을 도출하는 훈련 과정을 노리는 교사 데이터 독살(Training Set Poisoning)이 있음


Ø 이미지 인식 모델의 개발에는 일반적으로 인간이 식별한 피사체 정보의 태그가 붙은 교사 데이터(트레이닝 세트, Training Set)를 사용함


Ø 이 교사 데이터에 잘못된 태그를 부여한 이미지를 섞음으로써 피사체를 잘못 인식하는 이미지 인식 모델이 만들어지도록 하는 것이 교사 데이터 독살 기법임


Ø 이 때 입력되는 이미지 데이터에는 잘못된 태그가 붙여질 뿐만 아니라 이미지 인식 모델을 속이기 위한 노이즈도 함께 부여됨


Ø 이언 굿펠로우는 최근 멀웨어 검출 엔진은 기계학습 기반으로 개발되고 있는데, 멀웨어를 개발하는 해커 집단이 보안 소프트웨어 개발회사의 교사 데이터에 잘못된 데이터가 섞이게 함으로써 멀웨어를 감지 할 수 없게 하는 공격이 있을 수 있다며 교사 데이터 독살의 예를 들었음


ž 기계학습에 대한 새로운 공격 수법이 속속 발견됨에 따라 그러한 공격으로부터 AI를 방어하는 기술의 개발도 진행되고 있음


Ø 구글은 적대적 사례 공격을 방어하기 위해 클레버한스(Cleverhans)라는 소프트웨어 라이브러리를 공개하고 있음


Ø 클레버한스는 유사 적대적 사례 공격을 실행할 수 있는 이미지 데이터 세트로, 이미지 인식 모델을 개발하는 연구자는 클레버한스가 제공하는 이미지 데이터를 사용해 자신이 개발한 모델이 적대적 사례 공격에 취약한 지 여부를 확인해 볼 수 있음


Ø 스탠퍼드 대학의 박사 과정에 있는 아디티 라후나탄은 베이런 2017에서 볼록 완화(Convex Relaxations)라는 기술을 이용해 적대적 사례 공격을 방어하는 연구 성과를 발표하였음


Ø 이 기술은 이미지 인식에 사용하는 신경망에 특별한 숨겨진 레이어(음폐층)를 추가하여 노이즈를 추가한 이미지라도 오인식을 하지 않도록 하는 것임


Ø 딥러닝은 최근 빠르게 성장하고 있는 기법인 만큼 보안 측면의 연구가 딥러닝 보급 속도를 따라 잡지 못할 우려가 있는데, 딥러닝과 관련된 소프트웨어 개발자는 보안 정보 수집 및 대책에 놓치고 있는 점이 없는지 다시 한번 확인할 필요가 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

스스로 학습하는 인공지능 GAN, 현재 200여 개 파생기술 연구 중.pdf



[ 요 약 ]


구글의 인공지능(AI) 연구 부문인 구글 브레인의 이언 굿펠로우가 2014년 발표한 GAN(Generative Adversarial Networks)은 최근 10년간 AI 연구에서 가장 뛰어난 성과로 평가받고 있으며현재 약 200여 개의 변형된 기술들이 연구되고 있음. GAN은 딥러닝과 달리 인간의 개입 없이도 그리고 학습할 데이터가 없어도 신경망 스스로 학습해 나갈 수 있음을 보여주고 있다는 점에서 큰 기대를 받고 있으며그 잠재력만큼 동시에 큰 위험도 내포하고 있어 우려의 목소리도 높아지고 있음



[ 본 문 ]


ž 알파고 이후 인공지능(AI)이 대체할 수 없는 창의성을 키워야 한다는 주장이 더욱 커졌지만, 기실 알파고 쇼크의 본질은 창작도 AI가 인간보다 잘 할 수 있음을 보여준 데 있음


Ø 지나 10월 알파고를 개발한 딥마인드(DeepMind)인간의 지식 없이 바둑 게임 정복하기라는 논문을 발표하며, 새롭게 알파고 제로(Zero)를 소개하였음


Ø 제로라는 코드네임이 붙은 이유는, 이전 버전의 알파고 개발에서는 최초 학습 데이터로 사람의 기보 약 16만 건을 사용한 반면, 알파고 제로는 사람의 기보나 바둑에 대한 기본 규칙을 전혀 입력하지 않고 AI 스스로 바둑을 두면서 실력을 배양하도록 했기 때문


Ø 논문에 따르면 알파고 제로는 72시간 만에 이세돌을 꺾은 알파고 리 버전을 넘어섰고, 4개월 후에는 커제를 꺾은 알파고 마스터 버전을 넘어섰다고 함.


Ø 기존 AI가 방대한 데이터 분석과 강화학습 등을 통해 인간의 지혜를 배우는 데 초점을 두고 인간이 이미 잘 할 수 있는 것들을 자동화는 수준이었다면, 알파고 제로는 인간 전문가의 개입이나 인간의 관점 입력 없이 이루어졌다는 데 중대한 함의가 있음


Ø 알파고 제로의 바둑을 보면서 바둑계에서 나온 반응은 그래도 사람이 수천 년 동안 발전시켜 온 소위 바둑의 정석이란 것이 틀리지 않았음이 확인되어 다행이다라는 것이었는데, 최소한 바둑계에서는 이제 아무도 AI를 그저 엄청난 속도로 연산을 하는 기계로만 바라보지 않음


ž 실제 디자인, 회화, 음악, 문학, 영화 등 예술과 창작 영역에 AI의 침투 소식은 이제 더 이상 낯설지 않은데, 이들 소식에서 언급되는 AI는 수십 가지로 변형되고 있는 GAN 기술임


Ø 지난 5엔비디아 GTC 2017 컨퍼런스에서 구글 리서치의 이언 굿펠로우는 청중들에게 각양각색의 고양이 사진을 보여주며, 이중 실제 고양이 사진이 아닌 AI가 임의로 합성해 낸 이미지를 찾아보라고 질문을 던졌음


Ø 청중들은 좀처럼 찾아낼 수 없었는데, 사실 그 사진들 중 실제 고양이 사진은 단 한 장도 없었고 모두 AI가 무작위로 합성해 낸 것이었으며, 사람들은 진짜 사진과 가짜 사진의 구분이 무너지고 있다며 감탄과 탄식을 동시에 쏟아 냈음


<자료> NVIDA


[그림 1] GAN을 개발한 이언 굿펠로우


Ø 고양이 사진 합성에 사용된 인공지능 기술은 생성적 대립쌍 신경망(GAN, Generative Adversarial Network)이라 불리는 것인데, 이언 굿펠로우가 지난 2014년에 논문을 통해 발표했을 때 컴퓨터 사이언스 학계에서 찬사가 쏟아졌음


Ø 딥러닝의 창시자로 불리는 제프리 힌튼 교수는 (GAN)에 대해 최근 10년 간 가장 매력적인 이론이라 평가했는데, 인간의 가이드라인에 따라 수동적으로 학습하는 기존 AI와 달리 능동적으로 학습하고 행동하는 AI 개발을 위한 토대가 될 것이라 보았기 때문임


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크, 즉 이미지를 만드는 생성자(Generator)와 이미지가 진짜인지 가짜인지 감별하는 감식자(Discriminator)를 서로 경쟁시켜 생성자가 감별자가 구분하기 어려운 진짜 같은 가짜를 만들게 하는 것임


Ø 2014년 이후 매주 새로운 갠(GAN) 논문들이 쏟아지고 있으며 최근에는 190편 이상이 보고되고 있는데, 전문가들도 모두 추적하기 힘들 정도로 다양한 응용기법들이 등장하고 있음


Ø 그 이름도 다양해 DCGAN, SRGAN, StackGAN, 3D-GAN, CycleGAN 200여 개의 서로 다른 기법이 GAN으로부터 개발되고 있어 GAN 기술은 앞으로 더욱 발전속도가 가속화될 전망


ž 가장 대표적인 GAN 기법은 DCGAN(Deep Convolutional Generative Adversarial Networks)으로로 엔비디아는 이를 이용해 유명 연예인의 이미지를 생성하는 기술을 공개하였음


Ø 엔비디아의 DCGAN은 유명 연예인뿐만 아니라 침실, 화분, , 소파, 버스 등 어떤 객체라도 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주었음



Ø DCGAN에서 생성자(Generator)는 매개변수에서 원래 이미지를 찾아 처리하는 디컨볼루션 네트워크(De-Convolution Network)로 구성되며, 입력된 노이즈(랜덤 신호)로부터 이미지를 생성함


<자료> Amazon.


[그림 2] DCGAN을 이루는 생성자와 감식자


Ø 감식자(Discriminator)는 매개별수를 응축 처리하는 컨볼루션 네트워크(Convolution Network)로 구성되며, 여기에 위조 이미지(Fake) 또는 실제 이미지(Real)을 입력함


Ø 감식자는 입력된 이미지를 처리하고 그것이 위조(Fake)인지 또는 실제(Real)인지 여부를 로지스틱 회귀분석법으로 판정하며, 이 과정에서 감식자가 역전파 알고리즘(Backpropagation)으로 진짜와 가짜의 차이값(Gradient)을 얻게 됨


Ø 이 차이값을 다시 생성자에 입력하여 진짜와 똑 같은 가짜를 생성하는 기술을 향상시키는데, 양측이 모두 향상되는 구조로 이 프로세스를 몇 번이고 되풀이 하여 감식자가 구분할 수 없는 진짜 같은 가짜 이미지를 생성하게 됨


Ø DCGAN의 생성자는 가짜 이미지를 생성할 뿐만 아니라 생성된 이미지를 연산 조작하는 기능을 가지고 있는데, 예를 들어 안경을 쓴 남자 - 안경을 쓰지 않은 남자 + 안경을 쓰지 않은 여자 = 안경을 쓴 여자와 같은 연산을 처리함


<자료> Radford et al.


[그림 3] DCGAN 생성자의 이미지 연산 조작


Ø 연산의 결과 안경 쓴 여성의 이미지를 9개 생성하는데, 맨 중앙 이미지가 구하려는 답으로 주위의 8개 이미지를 외삽법(extrapolation)으로 추론하여 중앙의 이미지를 생성한 것이며, 이런 연산 조작 기법을 이용하면 금발을 흑발로 바꿀 수도 있음


Ø 외삽법이란 어떤 주어진 구간의 밖에 존재하는 값을 추정하는 것으로 보외법(補外法 )이라고도 하며, 반대로 주어진 구간 내에 존재할 수 있는 값을 추정하는 것은 보간법(補間法)이라고 함


ž 회화 그림 관련 응용프로그램에 적용되고 있는 SRGAN(Super-Resolution Generative Adversarial Networks)은 저해상도 이미지를 고해상도 이미지로 변환하는 기법임


<자료> Ledig et al.


[그림 4] SRGAN으로 해상도 높이기


Ø [그림 4]의 맨 오른쪽이 원본 이미지인데, 예를 들어 이 이미지의 해상도를 4배로 늘리는 작업을 한다고 할 때 다양한 방법으로 시도가 가능함


Ø 맨 왼쪽 이미지는 기존에 주로 많이 사용하던 바이큐빅(bicubic)이라는 2차원 외삽법에 의해 해상도를 높인 것임


Ø 왼쪽에서 두번째는 이미지 수준을 예측하는 심층 레지듀얼 네트워크(Deep Residual Network)로서 딥러닝의 손실함수인 평균제곱오차(Mean Squared Error)에 최적화 되어 있는 SRResNet 기법을 이용해 해상도를 높인 것임


Ø 왼쪽에서 세 번째가 SRGAN으로 생성한 이미지인데, 물리적으로는 손실 압축에서 화질 손실 정보를 수치로 표현한 최대 신호 대비 잡음비(peak signal-to-noise ratio)가 높아 노이즈가 있지만, 외견상 구조적 유사성(Structural Similarity)는 원본 이미지에 가장 가까움


Ø SRGAN 기법은 이미지 초해상도(Image Super-Resolution)라고도 불리며 저해상도 이미지를 8K 모니터 등 고해상도 디스플레이에 표시하는 기술로서 주목받고 있음


ž 스택GAN(StackGAN, Stacked Generative Adversarial Networks)는 입력된 문장과 단어를 해석해 이미지를 생성하는 인공지능 기법임


Ø 예를 들어, 이 새는 파란색에 흰색이 섞인 짧은 부리를 가지고 있다라는 텍스트를 입력하면 StackGAN이 이를 이해하여 그에 맞는 이미지를 생성함


<자료> Zhang et al.


[그림 5] StackGAN


Ø GAN이 생성자와 감식자의 대립 네트워크를 생성하듯, StackGAN은 저해상도 이미지를 생성하는 Stage-I과 고해상도 이미지를 생성하는 Stage-II 2단계 네트워크 구성을 갖추고 있음


Ø DCGAN과 마찬가지로 StackGAN에서 생성된 이미지는 실제 조류가 아닌 StackGAN이 상상으로 생성한 것이며, 사진처럼 보이지만 그러한 새는 세상에 존재하지 않음


ž 3D-GANMIT AI 연구팀이 공개한 입체 모델 생성 네트워크로 가령 가구 사진을 통해 교육시키면 3D-GAN은 가구를 3차원으로 그릴 수 있게 됨


Ø 연구팀의 논문을 보면 이케아의 가구 사진을 3D-GAN에 입력하면 그 가구를 3D로 묘사하는데, 입력된 사진은 가구 전체를 담고 있지 않지만 3D-GAN은 이것을 상상에서 보충하여 3D 이미지를 생성해 내고 있음


Ø 3D-GAN 역시 3D 모델 이미지를 연산 조작할 수 있는데, 가령 선반 있는 낮은 테이블 - 선반 없는 높은 테이블 + 높은 테이블 = 선반이 있는 높은 테이블'과 같은 연산을 수행해 이미지를 생성함


<자료> Wu et al.


[그림 6] 3D-GAN을 이용한 3D 이미지 생성


Ø [그림 6]3D-GAN이 학습한 성과를 가시적으로 보여주기 위한 것이며, GAN이 학습한 성과를 매개 변수로 네트워크에 저장하는 것을 실제로 볼 수는 없음


Ø MIT는 현재 숨겨진 영역(Latent Space)의 매개 변수를 출력하는 3D-GAN의 학습 메커니즘을 검증하기 위한 연구를 수행하고 있음.


ž 사이클GAN(CycleGAN)은 인공지능이 자율적으로 학습하여 이미지의 스타일을 다른 스타일로 변환시킬 수 있는 기술임


Ø 입력된 이미지의 스타일을 다른 스타일로 변환하는 방법을 일반적으로 스타일 변환(Style Transfer)이라고 하는데, 이미지 사이의 스타일을 매핑하기 위해 최근 들어 심층신경망을 이용하는 경우가 많음


Ø 가령 심층신경망이 화가의 스타일을 습득하여 그 화풍으로 그림을 그리는 기술이 다수 발표되고 있는데, 사진을 입력하면 AI가 이를 모네 스타일 혹은 피카소 스타일의 유화로 변환해 주는 애플리케이션들이 대표적임


Ø 그러나 이 방식은 화가의 작품이나 풍경 사진 데이터 중 어느 한쪽 혹은 양쪽의 데이터가 거의 없는 경우, 작품과 사진이 짝을 짓게 하는 교육(Paired Training)을 어떻게 실행할 수 있을 것인가가 큰 과제가 됨


Ø 이에 비해 사이클GAN(Cycle-Consistent Adversarial Networks) 기술은 쌍을 이루는 교육 데이터가 필요 없는, 즉 작품-사진의 쌍을 지을 필요 없이, 모네의 유화나 풍경 사진을 각각 독자적으로 사용하여 네트워크를 교육시키는 짝 지우지 않는 교육(Unpaired Training) 기법임


Ø 교육된 사이클GAN은 예를 들어 모네의 작품을 입력하면 이를 사진으로 변환하거나 반대로 사진을 입력하면 모네의 유화로 변환시킬 수 있음


Ø 또한 얼룩말의 사진을 말의 사진으로, 말의 사진을 얼룩말의 사진으로 변환할 수 있는데 이를 객체 변형(object transfiguration)이라 하며, 또한 산의 여름 사진을 입력하면 눈 쌓인 겨울 산의 사진으로 변환할 수도 있는데 이는 계절 변환(season transfer)이라고 함


<자료> Zhang et al.


[그림 7] CycleGAN을 이용한 스타일 변환


Ø 사이클GAN은 네트워크가 자율적으로 학습하는 아키텍처로서 교사 없는 학습(Unsupervised Learning)으로 이어질 수 있는 기법으로 기대되고 있음


Ø 사이클GAN 기법은 버클리 인공지능 연구실이 주축이 되어 개발하고 있는데, 주 책임자인 중국인 주준이엔 외에 한국인 박사과정 학생 박태성이 참여하고 있기도 함


ž 디스코GAN(DiscoGAN)은 인공지능이 자율적으로 서로 다른 객체 그룹 사이의 특성을 파악하여 양자 사이의 관계를 파악할 수 있는 기술임


Ø 사람은 하나의 그룹과 다른 그룹의 관계, 예를 들어 가방 그룹과 신발 그룹의 관계를 경험적 혹은 직관적으로 파악할 수 있는데, 신경망이 이 관계를 파악하도록 하기 위해서는 태그가 붙어 있는 이미지를 대량으로 입력해 알고리즘을 교육할 필요가 있음


Ø 이에 비해 디스코GAN은 알고리즘이 양자의 관계를 자율적으로 이해하는데, 먼저 디스코GAN에 가방과 신발이라는 두 그룹의 이미지를 각각 입력해 각자의 특성을 가르치고 나면 이미지에 태그(가방이나 신발 등의 이름)가 붙지 않아도 알고리즘이 양자의 관계를 스스로 파악함


Ø 교육된 디스코GAN을 예를 들면, 가방 이미지를 입력하면 신발 이미지를 생성하거나, 파란색 가방 이미지에서 파란색 신발 이미지를 생성하고, 남성의 사진을 입력하면 여성의 이미지를 생성 할 수도 있음


<자료> Kim et al.


[그림 8] DiscoGAN을 이용한 스타일 변환


Ø 디스코GAN 역시 사이클GAN과 마찬가지로 양자의 관계를 정의한 짝 지운 데이터(Paired Data)가 불필요하고 각자의 특성 이미지만 교육시키면 네트워크가 자율적으로 학습하는 구조이기 때문에, 교사 없는 학습의 길을 여는 기술로 주목받고 있음


ž GAN은 기초 연구뿐만 아니라 비즈니스에 응용도 시작되고 있는데, 아마존이 GAN을 이용한 패션 사업의 구상을 밝힌 것이 대표적임


Ø 아마존은 산하 연구소인 Lab126에서 GAN의 개발을 진행하고 있는데, GAN이 유행 중인 패션을 통해 스스로 스타일을 학습하고 자신만의 패션을 생성하도록 하고 있는데, GAN이 패션 디자이너가 되어 인간을 대신해 새로운 디자인을 창조하게 하는 것임



Ø 패션 트렌드는 페이스북이나 인스타그램 등에 올라온 사진으로 학습하는데, 이 사진들을 GAN에 입력하면 GAN이 트렌드를 배워 독자적인 패션을 디자인하게 됨


Ø 또한 아마존은 인공지능 스피커 에코의 변형 버전인 에코 룩(Echo Look)을 통해 이용자를 촬영한 다음 패션에 대한 조언을 하는 서비스를 제공하고 있음


Ø 아마존은 에코 룩을 통해 이용자의 패션 취향을 이해한 다음, GAN이 개인에 특화된 디자인을 만들게 하는 계획을 갖고 있는데, GA이 생성한 디자인으로 만든 주문형 옷(On-Demand Clothing)이 이용자에게 배달되게 하는 사업 구조임


<자료> Amazon


[그림 9] GAN을 이용한 아마존의 에코 룩


ž 이처럼 200여 개에 달하는 GAN의 변형 기술 연구가 폭넓게 진행되고 있는 이유는 GAN이 현재 딥러닝이 안고 있는 많은 문제를 해결해 줄 강력한 무기를 제고할 수 있기 때문임


Ø 특히 교사 없는 학습(Unsupervised Learning)과 태그 없는 데이터(Unlabeled Data) 교육 분야에서 연구를 크게 진전시킬 단서를 제공할 것으로 전망되고 있는데, 사이클CAN이나 디스코GAN이 그러한 가능성을 잘 보여주고 있음


Ø 또한 엔비디아의 연구팀 역시 DCGAN 기술을 이용해 촬영한 것처럼 선명한 가상의 유명 연예인 이미지를 생성하고 있지만, 신경망 교육에는 태그가 붙어 있지 않은 연예인 사진을 사용하는 등 알고리즘이 자율적으로 배우는 기술은 빠르게 진화하고 있음


Ø 과학자들은 상상하는 모습을 모두 이미지로 만들어 낼 수 있는 이런 시스템들을 보며 인공지능 신경망이 세상을 해석하는 통찰력을 제공해 줄 것이라 기대하고 있음


Ø 비록 인공지능이 어떤 원리로 이미지를 저장하고 해석하는지 명확하지는 않더라도, 바둑 기사들이 알파고가 바둑의 본질을 보다 잘 이해한다고 인정하듯이, 과학자들 역시 컴퓨터가 생성해 내는 이미지가 실제 세상에서도 통할 수 있다고 생각하는 것임


ž GAN에 대한 기대가 높아지는 만큼 그 위험성에 대한 지적도 나오고 있는데, AI 뿐만 아니라 모든 기술이 그렇듯 이 기술을 어떻게 사용할 것인지는 결국 인간이 결정에 달려 있음


Ø 페이스북의 AI 연구소장인 얀 르쿤은 GAN과 그 파생 기술들은 지난 10년의 기계학습 연구에서 가장 뛰어난 성과라고 높이 평가하고 있음


Ø 한편, GAN의 위험성을 지적하는 목소리도 높아지고 있는데, 지금까지도 페이스북 가짜 사진이 문제가 됐지만 GAN의 등장으로 그 위험성이 더욱 높아짐에 따라 이제 뉴스에 게재되는 사진이나 비디오를 신뢰할 수 있는가 하는 질문이 제기되고 있음


Ø 소셜 미디어에 게재된 이미지가 증거 사진으로 사용되는 경우가 많지만, 이제 앞으로 무엇이 진실인지 알 수 없는 시대가 되면 그럴 수 있겠느냐는 것이며, 수년 내로 GAN을 통해 진짜 같은 가짜 비디오를 생성할 수 있게 된다면 혼란은 더욱 가중될 것이라는 경고임


Ø 이는 엄밀한 근거에 기반을 두어야 하는 과학에서 더욱 불거질 수 있는 문제인데, 그럴듯한 이미지나 동영상과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없는 위험이 생긴 것임


Ø 삶을 풍요롭게 하는 데 사용될 지 아니면 삶을 위험에 빠뜨리게 될 지, AI가 그러하듯 GAN이라는 혁신 기술 역시 양날의 검을 가지고 있다는 점을 항시 염두에 두고 바라볼 필요가 있음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1823호(2017. 11. 22. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

현실 같은 가짜를 상상으로 만들어 내는 새로운 인공지능 &lsquo;GAN&rsquo;.pdf



[ 요 약 ]


엔비디아의 연구팀은 신경망이 유명 연예인(celebrity, 셀럽)의 이미지를 생성하는 기술을 공개했는데생성된 이미지는 실제 인물에 기반을 둔 것이 아니라 인공지능(AI)이 유명인의 개념을 이해하고 상상으로 그린 ​​것이며유명인 이외에도 모든 객체의 개념을 이해한 후 사람의 개입 없이 AI가 실제와 똑같이 그려낼 수 있음을 보여주었음생성적 대립쌍 신경망(Generative Adversarial Network, GAN)이라 불리는 이 기술은 2014년 처음 등장한 이래 가장 주목 받는 AI 연구 주제로 부상하였음



[ 본 문 ] 


ž 최근 인공지능(AI) 컴퓨팅 분야 연구에 적극 나서고 있는 엔비디아(Nvidia)GTC 유럽 2017 컨퍼런스에서 딥러닝 기반 응용프로그램 빈센트(Vincent) AI의 공개 시연을 진행


Ø 빈센트 AI는 이용자가 스타일러스 입력 펜을 사용해 간단히 스케치한 그림을 실시간으로 유화나 네온 색상의 팝아트 등 7가지 예술작품 스타일로 변환시켜 주는 응용프로그램으로 캠브리지 컨설턴트(Cambridge Consultants)라는 기업이 엔비디아 기술을 이용해 제작한 것임


<자료> NVIDA


[그림 1] 빈센트 AI로 변환시킨 스케치


Ø 엔비디아의 젠슨 황 CEO는 기조연설 도중 무대에서 내려와 스타일러스를 직접 들고 엔비디아 로고와 사람의 얼굴을 그렸으며, 이것이 실시간으로 피카소 풍의 그림으로 변환되자 컨퍼런스에 참석한 청중들의 박수가 터져 나왔음.


Ø 캠브리지 컨설턴트의 AI 연구소인 디지털 그린하우스(Digital Greenhouse)에서 5명으로 구성된 연구팀은 두 달 만에 빈센트 AI의 데모를 구현할 수 있었는데, 이번 데모는 엔비디아의 딥러닝 전용 수퍼컴퓨터인 DGX 시스템에서 트레이닝을 거쳐 구현되었음


Ø 기존의 딥러닝 알고리즘이 방대한 양의 데이터를 소화할 수 있게 됨으로써 놀라운 성과를 달성했다며, 빈센트 AI에 적용된 인공지능 기법은 두 개의 신경망을 이용해 이전에 비해 훨씬 더 적은 표본으로도 응용프로그램을 생성할 수 있었다는 점에서 주목받고 있음


Ø 엔비디아 측에 따르면, 알파고의 등장에 많은 바둑 기사들이 호응을 보인 것처럼 의외로 많은 예술가들이 빈센트 AI 에 상당한 호감을 보이고 있으며, 빈센트 AI를 통해 예술이 무엇인지, 예술에 대한 자신들의 지식이 어느 정도인지 알게 될 것이라 기대하고 있다고 함


ž 빈센트 AI의 놀라운 이미지 전환 기술 뒤에는 정밀한 튜닝 작업을 거친 GAN(Generative Adversarial Network), 생성적 대립쌍 신경망이라는 최신 AI 기술이 자리하고 있음


Ø 비영리 인공지능 연구단체인 오픈AI의 컴퓨터 과학자인 이언 굿펠로우가 창안한 (GAN) 기술은 최근 인공지능 기반 이미지 전환기술로 크게 각광받고 있으며, 굿펠로우는 연구 논문 발표 후 구글의 인공지능 연구부서인 구글 브레인으로 자리를 옮겨 연구를 지속하고 있음


Ø 이언 굿펠로우에 의해 2014년에 처음 등장한 이 기법과 관련한 논문 수가 기하급수적으로 증가해서 최근에는 190편 이상이 학계에 보고되고 있는데, 페이스북의 AI 연구를 이끌고 있는 얀 르쿤 교수는 갠(GAN)을 가장 중요한 기술로 꼽고 있음


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크를 만들고, 상호 대립 과정에서 훈련 목표를 자동으로 생성하도록 학습시키는 모델임


Ø 통상 기계학습이 사람이 태그를 달아주는 방식으로 학습결과가 맞았는지 확인해주는 데 반해 갠 기법은 사람의 개입 없이 컴퓨터가 스스로 목표 이미지와 비교해서 생성한 이미지를 반복해서 평가하고 수정하는 과정 속에서 데이터 자체에서 지식을 얻는 비지도 학습형 알고리즘임



Ø 최근 이미지 구별이나 음성 인식 등에 활용되는 인공지능 기술인 CNN이나 RNN지도 학습형 알고리즘으로 이미지나 음성을 구별하고 인식할 뿐 만들어 내지는 못하는데, GAN은 생성 모델을 통해 직접 이미지와 음성을 만들어 낸다는 것이 큰 차이점임


Ø 엔비디아의 연구팀이 개발한 기술 역시 GAN을 이용한 것으로, 엔비디아는 논문을 통해 신경망이 유명인(celebrity, 셀럽)의 이미지를 자동으로 생성하는 기술을 공개했는데, 이 이미지는 실제 사람이 아닌 AI유명인이라는 개념을 이해하고 상상으로 생성해 낸 것임


<자료> Karras et al.


[그림 2] GAN이 생성한 유명인 이미지


Ø GAN으로 그린 가상의 유명인은 어디선가 본 듯한 것처럼 보이지만 실존 인물은 아니며, 구글에서 이미지 검색을 해도 해당 인물이 발견되지는 않는데, 한마디로 GAN은 진짜 같은 가짜를 생성해 내는 기술이라고도 할 수 있음


Ø 엔비디아가 발표한 논문은 GAN이 유명 연예인 외에도 침실, 화분, , 소파, 버스 등의 객체를 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주고 있음


ž 생성적 대립쌍이라는 명칭이 붙은 이유는, GAN이 서로 경쟁하는 두 개의 신경망(dueling neural network) 구조를 통해 성능을 개선하고 딥러닝 모델을 진화시키기 때문


Ø GAN의 구조는 일반적으로 감식자(Discriminator)생성자(Generator)라는 두 개 층의 신경망으로 구성되는데, 양 측이 서로 충돌하면서 발생하는 차이점을 수정해 나가며 궁극의 균형점, 즉 진짜 같은 가짜의 생성에 이르게 됨



Ø 생성 네트워크는 진짜와 똑 같은 가짜 이미지를 생성하는 역할을 담당하는데, 생성자에 노이즈(랜덤 신호)가 입력되면 이를 토대로 가짜 이미지를 생성함


Ø 감식자는 입력된 데이터가 진짜인지 가짜인지를 판정하는데, 생성자가 만들어 낸 가짜(Fake) 이미지와 샘플 데이터세트에서 추출된 실제(Real) 이미지가 감식자에 입력되면 Fake 또는 Real 여부를 판정하게 됨


Ø 이 방식은 게임이론 중 내쉬 균형(Nash Equilibrium), 즉 합리적 판단을 하는 상호 간의 게임이론에 따라 수학적으로 균형점을 찾는다는 이론이 적용된 것임


Ø 한 마디로 GAN은 생성자와 감식자가 대치하며, 매우 성공적인 가짜를 생성해내는 인공지능 기술이라 정의할 수 있음


<자료> Anton Karazeev


[그림 3] 대립쌍을 이루는 GAN의 작동 프로세스


ž GAN의 개념을 주창한 이언 굿펠로우는 대립쌍을 설명하면서 생성자와 감식자의 관계를 위조 지폐범과 경찰의 대결로 비유하였음


Ø 화폐 위조범(생성자 G)이 새로운 위폐를 만들어내면 경찰이나 은행원(감식자 D)은 이를 간파해야 하고, 위조범들이 이를 피하기 위해 더 그럴 듯한 위조 지폐를 만들면 경찰관들도 동시에 감식 기술을 향상시키는데, 이 과정을 통해 위조 화폐가 더욱 정교해진다는 것


Ø 즉 위폐범의 위조 기술과 경찰의 감식 기술이 서로를 자극하면서 발전을 거듭하면, 결국 위조화폐는 진짜 화폐와 같은 수준의 내쉬 균형점에 이르게 된다는 것으로, 현실에서는 감식자가 위폐범을 이겨야 하나 GAN에서는 위폐범의 승리가 목표임


Ø 이언 굿펠로우는 대립쌍을 설명하면서 수학 같이 명확한 답이 없지만 확률적으로 목표와 근사한 지를 끊임없이 확인하면서 이미지를 변환해 가면 결국엔 위폐일 확률과 진짜일 화폐일 확률이 각기 0.5가 된다고 표현하였음


Ø 인간과 AI가 대결과 공존을 해야 하는 시대에 인간이 우위를 점할 수 있는 영역으로 흔히 창의성과 예술 분야가 거론되지만, 알파고 등장에서 보듯 현실은 창의성에서도 AI의 우월성이 드러나는데, 위폐범의 승리를 목표로 하는 GAN 같은 기술의 등장이 그 원인이라 할 수 있음


ž 이처럼 GAN은 매우 성공적인 가짜를 생성할 수 있으나 기술적으로 몇 가지 과제가 있었는데, 엔비디아는 특수 구조를 개발하여 과제를 해결해 가고 있음


Ø GAN의 과제는 알고리즘의 교육에 장시간 연산이 필요하다는 점과 알고리즘의 작동이 불안정하다는 점이었는데, 엔비디아는 서서히 이미지의 해상도를 높여 나가는 구조의 네트워크를 개발하여 문제를 해결하였음



Ø 엔비디아가 개발한 GAN의 특징은 학습 초기 단계에서는 낮은 해상도(4×4)의 네트워크를 사용하고, 학습이 진행되면서 점차 해상도를 올려 최종적으로 고해상도(1024×1024)의 네트워크를 사용해 선명한 이미지를 생성한다는 점

Ø 엔비디아의 GAN이 순차적으로 생성한 이미지와 생성에 소요된 시간을 살펴보면, GAN에 학습을 시작한 지 4시간 33분이 경과한 시점에 저해상도(16×16)의 이미지가 생성되어 사람으로 보이는 듯한 형상이 나타났음


Ø 1 6시간이 경과한 시점에서 나타난 중간 해상도(64×64)의 이미지에서는 얼굴 윤곽이 뚜렷해졌으며, 5 12시간이 경과한 시점에 나타난 고해상도(256×256) 이미지에서는 인물이 부드럽게 그려져 있지만 세부적으로 보면 군데군데 일그러진 곳이 있음


Ø 19 4시간이 경과한 시점에 나타난 초고해상도(1024×1024) 이미지에서는 리얼한 인물이 완성되는데, 이처럼 엔비디아의 GAN은 감식자(Discriminator)의 스킬을 검증하면서 서서히 해상도를 올려나가는 방식을 통해 알고리즘 교육 시간을 약 20일로 단축하였음


<자료> Karras et al.


[그림 4] 점증적으로 해상도를 높여 나가는 엔비디아의 GAN


ž 엔비디아가 GAN의 성능을 개선했지만, 고해상도의 이미지를 생성하려면 대규모 컴퓨팅 리소스를 필요로 하는 등 아직 연구를 통해 개선해야 할 것들이 많이 남아 있음


Ø GAN에서 선명한 이미지를 생성하기 위해서는 대규모 컴퓨팅 자원이 필요한데, 엔비디아의 경우 이 연구를 위해 NVIDIA Tesla P100 GPU(4.7 TFLOPS)를 사용하였음


Ø GAN의 알고리즘 학습에는 약 20일 정도가 걸렸는데, 많이 개선된 것이지만 고해상도의 이미지를 생성하려면 여전히 많은 처리 시간이 필요하며, 결국 완벽한 가짜 이미지 생성에 아직까지는 많은 비용이 소요됨을 의미함


Ø 또한 GAN으로 그려낼 수 있는 대상은 GAN이 학습을 마친 분야로 제한되기 때문에 현재는 유명 연예인 등 일부에 한정되는데, GAN의 교육 시간을 상당히 단축시키거나 혹은 폭넓은 분야를 커버하게 하려면 추가 연구가 필요한 상황임


ž GAN은 양날의 검이 될 위험성이 존재하지만, 현재 AI 기술 개발의 가장 큰 걸림돌을 해결할 단서가 될 수 있다는 점에서 AI 분야의 큰 돌파구가 될 수 있는 연구 주제임


Ø GAN은 현재 딥러닝이 안고 있는 많은 문제를 해결할 수 있는 비장의 카드가 될 가능성이 있는데, 비지도 학습(Unsupervised Learning)과 라벨이 없는 데이터(태그 없는 교육 자료) 분야의 연구를 크게 진전시킬 단서가 될 것으로 전망되고 있기 때문


Ø 이는 현재 AI 개발의 가장 큰 걸림돌이 되고 있는 문제, 즉 알고리즘을 교육하기 위해 대량의 태그 데이터가 필요하다는 문제의 해결책이 될 수 있음을 의미하며 이것이 개발자들이 GAN에 주목하는 가장 큰 이유임


Ø 반면 GAN에 대한 우려도 그만큼 크게 대두되고 있는데, GAN이 가상으로 그려낸 이미지는 사진 촬영을 한 연예인이라 해도 의심의 여지가 없으며, 실제와 똑 같은 가짜 앞에서 양자의 진위를 판정할 수 있는 사람은 아무도 없음


Ø 소셜 미디어에서 가짜 뉴스가 문제가 되고 있지만 GAN의 등장으로 이제는 가짜 사진이 사태를 더욱 복잡하게 할 가능성이 커졌으며, 인스타그램에 올라오는 사진들 역시 GAN이 만들어 낼 시대가 도래하고 있음


Ø 전문가들이라고 이런 문제를 비껴나갈 수 있는 것은 아니어서, 천문학자들은 이제 우주의 이미지를 직접 우주 공간에 나가서 사진 찍듯이 그려내고 있으며, 화산 폭발 장면을 실감나는 사진으로 표현하고 있음


Ø 또한 인체의 DNA가 어떻게 작동하는지 또 단백질이 어떻게 반응하는지를 직접 촬영한 사진처럼 표현하기도 하는데, 그럴듯한 이미지들과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없음


Ø GAN 의 등장은 현실과 가상현실 사이에서 진위의 구분이 무의미해지는 시대의 도래를 시사하며, 양날의 검이 될 수 있는 GAN의 활용 범위와 방안을 놓고 AI 개발자 커뮤니티뿐 아니라 일반인 사이에서도 다양한 논쟁이 벌어질 것으로 보임