※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1824호(2017. 11. 29. 발행)에 기고한 원고입니다.
▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.
스스로 학습하는 인공지능 GAN, 현재 200여 개 파생기술 연구 중.pdf
[ 요 약 ]
구글의 인공지능(AI) 연구 부문인 구글 브레인의 이언 굿펠로우가 2014년 발표한 GAN(Generative Adversarial Networks)은 최근 10년간 AI 연구에서 가장 뛰어난 성과로 평가받고 있으며, 현재 약 200여 개의 변형된 기술들이 연구되고 있음. GAN은 딥러닝과 달리 인간의 개입 없이도 그리고 학습할 데이터가 없어도 신경망 스스로 학습해 나갈 수 있음을 보여주고 있다는 점에서 큰 기대를 받고 있으며, 그 잠재력만큼 동시에 큰 위험도 내포하고 있어 우려의 목소리도 높아지고 있음
[ 본 문 ]
알파고 이후
인공지능(AI)이 대체할 수 없는 창의성을 키워야 한다는 주장이 더욱 커졌지만, 기실 알파고 쇼크의 본질은 창작도 AI가 인간보다 잘 할 수 있음을
보여준 데 있음
Ø 지나 10월 알파고를 개발한 ‘딥마인드(DeepMind)’는 ‘인간의
지식 없이 바둑 게임 정복하기’라는 논문을 발표하며, 새롭게 ‘알파고 제로(Zero)’를 소개하였음
Ø ‘제로’라는 코드네임이 붙은 이유는, 이전 버전의
알파고 개발에서는 최초 학습 데이터로 사람의 기보 약 16만 건을 사용한 반면, 알파고 제로는 사람의 기보나 바둑에 대한 기본 규칙을 전혀 입력하지 않고
AI 스스로 바둑을 두면서 실력을 배양하도록 했기 때문
Ø 논문에 따르면 알파고 제로는 72시간 만에 이세돌을 꺾은 ‘알파고 리’ 버전을 넘어섰고, 4개월 후에는 커제를 꺾은 ‘알파고 마스터’ 버전을 넘어섰다고 함.
Ø 기존 AI가 방대한 데이터 분석과 강화학습 등을 통해 인간의 지혜를
배우는 데 초점을 두고 인간이 이미 잘 할 수 있는 것들을 자동화는 수준이었다면, 알파고 제로는 인간
전문가의 개입이나 인간의 관점 입력 없이 이루어졌다는 데 중대한 함의가 있음
Ø 알파고 제로의 바둑을 보면서 바둑계에서 나온 반응은 그래도 사람이 수천 년 동안 발전시켜 온 소위 바둑의 정석이란
것이 틀리지 않았음이 확인되어 ‘다행이다’라는 것이었는데, 최소한 바둑계에서는
이제 아무도 AI를 그저 엄청난 속도로 연산을 하는 기계로만 바라보지 않음
실제 디자인, 회화, 음악, 문학, 영화 등 예술과 창작 영역에 AI의 침투 소식은 이제 더 이상 낯설지 않은데, 이들 소식에서 언급되는 AI는 수십 가지로 변형되고 있는 ‘GAN’ 기술임
Ø 지난 5월 ‘엔비디아 GTC 2017’ 컨퍼런스에서 구글 리서치의 이언
굿펠로우는 청중들에게 각양각색의 고양이 사진을 보여주며, 이중 실제 고양이 사진이 아닌 AI가 임의로 합성해 낸 이미지를 찾아보라고 질문을 던졌음
Ø 청중들은 좀처럼 찾아낼 수 없었는데, 사실 그 사진들 중 실제 고양이
사진은 단 한 장도 없었고 모두 AI가 무작위로 합성해 낸 것이었으며,
사람들은 진짜 사진과 가짜 사진의 구분이 무너지고 있다며 감탄과 탄식을 동시에 쏟아 냈음
<자료> NVIDA
[그림 1] GAN을
개발한 이언 굿펠로우
|
Ø 고양이 사진 합성에 사용된 인공지능 기술은 ‘생성적
대립쌍 신경망(GAN, Generative Adversarial Network)’이라 불리는 것인데, 이언 굿펠로우가
지난 2014년에 논문을 통해 발표했을 때 컴퓨터 사이언스 학계에서 찬사가 쏟아졌음
Ø 딥러닝의 창시자로 불리는 제프리 힌튼 교수는 ‘갠(GAN)’에 대해 ‘최근 10년 간 가장 매력적인 이론’이라 평가했는데, 인간의 가이드라인에
따라 수동적으로 학습하는 기존 AI와 달리 ‘능동적으로 학습하고 행동하는’ AI 개발을 위한 토대가 될 것이라 보았기
때문임
Ø 갠 신경망은 ‘대립쌍을 이루는(Adversarial)’ 두
개의 네트워크, 즉 이미지를 만드는 ‘생성자(Generator)’와 이미지가 진짜인지 가짜인지 감별하는
‘감식자(Discriminator)’를 서로 경쟁시켜 생성자가 감별자가 구분하기 어려운 진짜 같은 가짜를 만들게
하는 것임
Ø 2014년 이후 매주 새로운 갠(GAN) 논문들이 쏟아지고 있으며
최근에는 190편 이상이 보고되고 있는데, 전문가들도 모두
추적하기 힘들 정도로 다양한 응용기법들이 등장하고 있음
Ø 그 이름도 다양해 DCGAN, SRGAN, StackGAN, 3D-GAN, CycleGAN
등 200여 개의 서로 다른 기법이 GAN으로부터
개발되고 있어 GAN 기술은 앞으로 더욱 발전속도가 가속화될 전망
가장 대표적인 GAN 기법은 DCGAN(Deep
Convolutional Generative Adversarial Networks)으로로 엔비디아는 이를 이용해 유명 연예인의 이미지를
생성하는 기술을 공개하였음
Ø 엔비디아의 DCGAN은 유명 연예인뿐만 아니라 침실, 화분, 말, 소파, 버스 등 어떤 객체라도 AI가 개념만 듣고 현실과 똑같이 그려낼
수 있음을 보여주었음
Ø DCGAN에서 생성자(Generator)는 매개변수에서 원래 이미지를
찾아 처리하는 ‘디컨볼루션 네트워크(De-Convolution Network)’로
구성되며, 입력된 노이즈(랜덤 신호)로부터 이미지를 생성함
<자료> Amazon.
[그림 2] DCGAN을 이루는 생성자와 감식자 |
Ø 감식자(Discriminator)는 매개별수를 응축 처리하는 ‘컨볼루션 네트워크(Convolution
Network)’로 구성되며, 여기에 위조 이미지(Fake) 또는 실제 이미지(Real)을 입력함
Ø 감식자는 입력된 이미지를 처리하고 그것이 위조(Fake)인지 또는
실제(Real)인지 여부를 로지스틱 회귀분석법으로 판정하며, 이
과정에서 감식자가 역전파 알고리즘(Backpropagation)으로 진짜와 가짜의 차이값(Gradient)을 얻게 됨
Ø 이 차이값을 다시 생성자에 입력하여 진짜와 똑 같은 가짜를 생성하는 기술을 향상시키는데, 양측이 모두 향상되는 구조로 이 프로세스를 몇 번이고 되풀이 하여 감식자가 구분할 수 없는 진짜 같은 가짜
이미지를 생성하게 됨
Ø DCGAN의 생성자는 가짜 이미지를 생성할 뿐만 아니라 생성된 이미지를 연산 조작하는 기능을 가지고 있는데, 예를 들어 ‘안경을 쓴 남자 - 안경을 쓰지 않은 남자 + 안경을 쓰지 않은 여자 = 안경을 쓴 여자’와 같은 연산을 처리함
<자료> Radford et al.
[그림 3] DCGAN 생성자의 이미지 연산 조작 |
Ø 연산의 결과 안경 쓴 여성의 이미지를 9개 생성하는데, 맨 중앙 이미지가 구하려는 답으로 주위의 8개 이미지를 외삽법(extrapolation)으로 추론하여 중앙의 이미지를 생성한 것이며, 이런
연산 조작 기법을 이용하면 금발을 흑발로 바꿀 수도 있음
Ø 외삽법이란 어떤 주어진 구간의 밖에 존재하는 값을 추정하는 것으로 보외법(補外法 )이라고도 하며, 반대로 주어진 구간 내에 존재할 수 있는 값을 추정하는
것은 보간법(補間法)이라고 함
회화 그림 관련 응용프로그램에 적용되고 있는 SRGAN(Super-Resolution
Generative Adversarial Networks)은 저해상도 이미지를 고해상도 이미지로 변환하는 기법임
<자료> Ledig et al.
[그림 4] SRGAN으로
해상도 높이기
|
Ø [그림 4]의 맨 오른쪽이 원본 이미지인데, 예를 들어 이 이미지의 해상도를 4배로 늘리는 작업을 한다고 할
때 다양한 방법으로 시도가 가능함
Ø 맨 왼쪽 이미지는 기존에 주로 많이 사용하던 ‘바이큐빅(bicubic)’이라는 2차원 외삽법에 의해 해상도를 높인 것임
Ø 왼쪽에서 두번째는 이미지 수준을 예측하는 심층 레지듀얼 네트워크(Deep Residual
Network)로서 딥러닝의 손실함수인 평균제곱오차(Mean Squared Error)에
최적화 되어 있는 SRResNet 기법을 이용해 해상도를 높인 것임
Ø 왼쪽에서 세 번째가 SRGAN으로 생성한 이미지인데, 물리적으로는 손실 압축에서 화질 손실 정보를 수치로 표현한 ‘최대 신호 대비 잡음비(peak
signal-to-noise ratio)’가 높아 노이즈가 있지만, 외견상 구조적 유사성(Structural Similarity)는
원본 이미지에 가장 가까움
Ø SRGAN 기법은 이미지 초해상도(Image Super-Resolution)라고도
불리며 저해상도 이미지를 8K 모니터 등 고해상도 디스플레이에 표시하는 기술로서 주목받고 있음
스택GAN(StackGAN, Stacked
Generative Adversarial Networks)는 입력된 문장과 단어를 해석해 이미지를 생성하는 인공지능 기법임
Ø 예를 들어, ‘이 새는 파란색에 흰색이 섞인 짧은
부리를 가지고 있다’라는 텍스트를 입력하면 StackGAN이 이를 이해하여 그에 맞는 이미지를 생성함
<자료> Zhang et al.
[그림 5] StackGAN
Ø GAN이 생성자와 감식자의 대립
네트워크를 생성하듯, StackGAN은 저해상도 이미지를 생성하는 Stage-I과
고해상도 이미지를 생성하는 Stage-II의 2단계 네트워크
구성을 갖추고 있음
Ø DCGAN과 마찬가지로 StackGAN에서 생성된 이미지는 실제 조류가 아닌 StackGAN이
상상으로 생성한 것이며, 사진처럼 보이지만 그러한 새는 세상에 존재하지 않음
3D-GAN은 MIT의 AI 연구팀이
공개한 입체 모델 생성 네트워크로 가령 가구 사진을 통해 교육시키면 3D-GAN은 가구를 3차원으로 그릴 수 있게 됨
Ø 연구팀의 논문을 보면 이케아의 가구 사진을 3D-GAN에 입력하면
그 가구를 3D로 묘사하는데, 입력된 사진은 가구 전체를
담고 있지 않지만 3D-GAN은 이것을 상상에서 보충하여 3D 이미지를
생성해 내고 있음
Ø 3D-GAN 역시 3D 모델 이미지를 연산 조작할 수 있는데, 가령 ‘선반 있는 낮은 테이블 - 선반 없는 높은 테이블 + 높은 테이블 = 선반이 있는 높은 테이블'과 같은 연산을 수행해 이미지를 생성함
<자료> Wu et al.
[그림 6] 3D-GAN을 이용한 3D 이미지 생성 |
Ø [그림 6]은 3D-GAN이
학습한 성과를 가시적으로 보여주기 위한 것이며, GAN이 학습한 성과를 매개 변수로 네트워크에 저장하는
것을 실제로 볼 수는 없음
Ø MIT는 현재 숨겨진 영역(Latent Space)의 매개 변수를
출력하는 3D-GAN의 학습 메커니즘을 검증하기 위한 연구를 수행하고 있음.
사이클GAN(CycleGAN)은 인공지능이 자율적으로 학습하여 이미지의
스타일을 다른 스타일로 변환시킬 수 있는 기술임
Ø 입력된 이미지의 스타일을 다른 스타일로 변환하는 방법을 일반적으로 ‘스타일 변환(Style Transfer)’이라고 하는데, 이미지 사이의 스타일을
매핑하기 위해 최근 들어 심층신경망을 이용하는 경우가 많음
Ø 가령 심층신경망이 화가의 스타일을 습득하여 그 화풍으로 그림을 그리는 기술이 다수 발표되고 있는데, 사진을 입력하면 AI가 이를 모네 스타일 혹은 피카소 스타일의 유화로
변환해 주는 애플리케이션들이 대표적임
Ø 그러나 이 방식은 화가의 작품이나 풍경 사진 데이터 중 어느 한쪽 혹은 양쪽의 데이터가 거의 없는 경우, 작품과 사진이 ‘짝을 짓게 하는 교육(Paired Training)’을 어떻게 실행할 수 있을 것인가가
큰 과제가 됨
Ø 이에 비해 사이클GAN(Cycle-Consistent Adversarial
Networks) 기술은 쌍을 이루는 교육 데이터가 필요 없는, 즉 작품-사진의 쌍을 지을 필요 없이, 모네의 유화나 풍경 사진을 각각 독자적으로
사용하여 네트워크를 교육시키는 짝 지우지 않는 교육(Unpaired Training) 기법임
Ø 교육된 사이클GAN은 예를 들어 모네의 작품을 입력하면 이를 사진으로
변환하거나 반대로 사진을 입력하면 모네의 유화로 변환시킬 수 있음
Ø 또한 얼룩말의 사진을 말의 사진으로, 말의 사진을 얼룩말의 사진으로
변환할 수 있는데 이를 객체 변형(object transfiguration)이라 하며, 또한 산의 여름 사진을 입력하면 눈 쌓인 겨울 산의 사진으로 변환할 수도 있는데 이는 계절 변환(season transfer)이라고 함
<자료> Zhang et al.
[그림 7] CycleGAN을 이용한 스타일 변환 |
Ø 사이클GAN은 네트워크가 자율적으로 학습하는 아키텍처로서 ‘교사 없는 학습(Unsupervised
Learning)’으로 이어질 수 있는 기법으로 기대되고
있음
Ø 사이클GAN 기법은 버클리 인공지능 연구실이 주축이 되어 개발하고
있는데, 주 책임자인 중국인 주준이엔 외에 한국인 박사과정 학생 박태성이 참여하고 있기도 함
디스코GAN(DiscoGAN)은 인공지능이 자율적으로 서로 다른 객체
그룹 사이의 특성을 파악하여 양자 사이의 관계를 파악할 수 있는 기술임
Ø 사람은 하나의 그룹과 다른 그룹의 관계, 예를 들어 가방 그룹과 신발
그룹의 관계를 경험적 혹은 직관적으로 파악할 수 있는데, 신경망이 이 관계를 파악하도록 하기 위해서는
태그가 붙어 있는 이미지를 대량으로 입력해 알고리즘을 교육할 필요가 있음
Ø 이에 비해 디스코GAN은 알고리즘이 양자의 관계를 자율적으로 이해하는데, 먼저 디스코GAN에 가방과 신발이라는 두 그룹의 이미지를 각각 입력해
각자의 특성을 가르치고 나면 이미지에 태그(가방이나 신발 등의 이름)가
붙지 않아도 알고리즘이 양자의 관계를 스스로 파악함
Ø 교육된 디스코GAN을 예를 들면, 가방
이미지를 입력하면 신발 이미지를 생성하거나, 파란색 가방 이미지에서 파란색 신발 이미지를 생성하고, 남성의 사진을 입력하면 여성의 이미지를 생성 할 수도 있음
<자료> Kim et al.
[그림 8] DiscoGAN을 이용한 스타일 변환 |
Ø 디스코GAN 역시 사이클GAN과
마찬가지로 양자의 관계를 정의한 짝 지운 데이터(Paired Data)가 불필요하고 각자의 특성 이미지만
교육시키면 네트워크가 자율적으로 학습하는 구조이기 때문에, 교사 없는 학습의 길을 여는 기술로 주목받고
있음
GAN은 기초 연구뿐만 아니라 비즈니스에 응용도 시작되고 있는데, 아마존이
GAN을 이용한 패션 사업의 구상을 밝힌 것이 대표적임
Ø 아마존은 산하 연구소인 Lab126에서 GAN의 개발을 진행하고 있는데, GAN이 유행 중인 패션을 통해
스스로 스타일을 학습하고 자신만의 패션을 생성하도록 하고 있는데, GAN이 패션 디자이너가 되어 인간을
대신해 새로운 디자인을 창조하게 하는 것임
Ø 패션 트렌드는 페이스북이나 인스타그램 등에 올라온 사진으로 학습하는데, 이
사진들을 GAN에 입력하면 GAN이 트렌드를 배워 독자적인
패션을 디자인하게 됨
Ø 또한 아마존은 인공지능 스피커 에코의 변형 버전인 ‘에코 룩(Echo Look)’을 통해 이용자를 촬영한 다음 패션에 대한 조언을 하는 서비스를 제공하고 있음
Ø 아마존은 에코 룩을 통해 이용자의 패션 취향을 이해한 다음, GAN이
개인에 특화된 디자인을 만들게 하는 계획을 갖고 있는데, GA이 생성한 디자인으로 만든 주문형 옷(On-Demand Clothing)이 이용자에게 배달되게 하는 사업 구조임
<자료> Amazon
[그림 9] GAN을 이용한 아마존의 에코 룩 |
이처럼 200여 개에 달하는 GAN의
변형 기술 연구가 폭넓게 진행되고 있는 이유는 GAN이 현재 딥러닝이 안고 있는 많은 문제를 해결해
줄 강력한 무기를 제고할 수 있기 때문임
Ø 특히 교사 없는 학습(Unsupervised Learning)과 태그
없는 데이터(Unlabeled Data) 교육 분야에서 연구를 크게 진전시킬 단서를 제공할 것으로 전망되고
있는데, 사이클CAN이나 디스코GAN이 그러한 가능성을 잘 보여주고 있음
Ø 또한 엔비디아의 연구팀 역시 DCGAN 기술을 이용해 촬영한 것처럼
선명한 가상의 유명 연예인 이미지를 생성하고 있지만, 신경망 교육에는 태그가 붙어 있지 않은 연예인
사진을 사용하는 등 알고리즘이 자율적으로 배우는 기술은 빠르게 진화하고 있음
Ø 과학자들은 상상하는 모습을 모두 이미지로 만들어 낼 수 있는 이런 시스템들을 보며 인공지능 신경망이 세상을 해석하는
통찰력을 제공해 줄 것이라 기대하고 있음
Ø 비록 인공지능이 어떤 원리로 이미지를 저장하고 해석하는지 명확하지는 않더라도,
바둑 기사들이 알파고가 바둑의 본질을 보다 잘 이해한다고 인정하듯이, 과학자들 역시 컴퓨터가
생성해 내는 이미지가 실제 세상에서도 통할 수 있다고 생각하는 것임
GAN에 대한 기대가 높아지는 만큼 그 위험성에 대한 지적도 나오고 있는데,
AI 뿐만 아니라 모든 기술이 그렇듯 이 기술을 어떻게 사용할 것인지는 결국 인간이 결정에 달려 있음
Ø 페이스북의 AI 연구소장인 얀 르쿤은 GAN과 그 파생 기술들은 지난 10년의 기계학습 연구에서 가장 뛰어난
성과라고 높이 평가하고 있음
Ø 한편, GAN의 위험성을 지적하는 목소리도 높아지고 있는데, 지금까지도 페이스북 가짜 사진이 문제가 됐지만 GAN의 등장으로
그 위험성이 더욱 높아짐에 따라 이제 뉴스에 게재되는 사진이나 비디오를 신뢰할 수 있는가 하는 질문이 제기되고 있음
Ø 소셜 미디어에 게재된 이미지가 증거 사진으로 사용되는 경우가 많지만, 이제
앞으로 무엇이 진실인지 알 수 없는 시대가 되면 그럴 수 있겠느냐는 것이며, 수년 내로 GAN을 통해 진짜 같은 가짜 비디오를 생성할 수 있게 된다면 혼란은 더욱 가중될 것이라는 경고임
Ø 이는 엄밀한 근거에 기반을 두어야 하는 과학에서 더욱 불거질 수 있는 문제인데,
그럴듯한 이미지나 동영상과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없는 위험이 생긴 것임
Ø 삶을 풍요롭게 하는 데 사용될 지 아니면 삶을 위험에 빠뜨리게 될 지, AI가
그러하듯 GAN이라는 혁신 기술 역시 양날의 검을 가지고 있다는 점을 항시 염두에 두고 바라볼 필요가
있음