※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1823호(2017. 11. 22. 발행)에 기고한 원고입니다.
▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.
현실 같은 가짜를 상상으로 만들어 내는 새로운 인공지능 ‘GAN’.pdf
[ 요 약 ]
엔비디아의 연구팀은 신경망이 유명 연예인(celebrity, 셀럽)의 이미지를 생성하는 기술을 공개했는데, 생성된 이미지는 실제 인물에 기반을 둔 것이 아니라 인공지능(AI)이 유명인의 개념을 이해하고 상상으로 그린 것이며, 유명인 이외에도 모든 객체의 개념을 이해한 후 사람의 개입 없이 AI가 실제와 똑같이 그려낼 수 있음을 보여주었음. ‘생성적 대립쌍 신경망(Generative Adversarial Network, GAN)’이라 불리는 이 기술은 2014년 처음 등장한 이래 가장 주목 받는 AI 연구 주제로 부상하였음
[ 본 문 ]
최근 인공지능(AI) 컴퓨팅 분야 연구에 적극 나서고 있는 엔비디아(Nvidia)는
‘GTC 유럽 2017’ 컨퍼런스에서
딥러닝 기반 응용프로그램 ‘빈센트(Vincent) AI’의 공개 시연을 진행
Ø ‘빈센트 AI’는 이용자가 스타일러스 입력 펜을 사용해
간단히 스케치한 그림을 실시간으로 유화나 네온 색상의 팝아트 등 7가지 예술작품 스타일로 변환시켜 주는
응용프로그램으로 ‘캠브리지 컨설턴트(Cambridge Consultants)’라는
기업이 엔비디아 기술을 이용해 제작한 것임
<자료> NVIDA
[그림 1] 빈센트 AI로 변환시킨 스케치
|
Ø 엔비디아의 젠슨 황 CEO는 기조연설 도중 무대에서 내려와 스타일러스를
직접 들고 엔비디아 로고와 사람의 얼굴을 그렸으며, 이것이 실시간으로 피카소 풍의 그림으로 변환되자
컨퍼런스에 참석한 청중들의 박수가 터져 나왔음.
Ø 캠브리지 컨설턴트의 AI 연구소인 디지털 그린하우스(Digital Greenhouse)에서 5명으로 구성된 연구팀은 두
달 만에 빈센트 AI의 데모를 구현할 수 있었는데, 이번
데모는 엔비디아의 딥러닝 전용 수퍼컴퓨터인 ‘DGX
시스템’에서 트레이닝을 거쳐 구현되었음
Ø 기존의 딥러닝 알고리즘이 방대한 양의 데이터를 소화할 수 있게 됨으로써 놀라운 성과를 달성했다며, 빈센트 AI에 적용된 인공지능 기법은 두 개의 신경망을 이용해 이전에
비해 훨씬 더 적은 표본으로도 응용프로그램을 생성할 수 있었다는 점에서 주목받고 있음
Ø 엔비디아 측에 따르면, 알파고의 등장에 많은 바둑 기사들이 호응을
보인 것처럼 의외로 많은 예술가들이 빈센트 AI 에 상당한 호감을 보이고 있으며, 빈센트 AI를 통해 예술이 무엇인지, 예술에 대한 자신들의 지식이 어느 정도인지 알게 될 것이라 기대하고 있다고 함
빈센트 AI의 놀라운 이미지 전환 기술 뒤에는 정밀한 튜닝 작업을
거친 ‘GAN(Generative
Adversarial Network)’, 즉
‘생성적 대립쌍 신경망’이라는 최신 AI 기술이 자리하고 있음
Ø 비영리 인공지능 연구단체인 ‘오픈AI’의 컴퓨터 과학자인 이언 굿펠로우가 창안한 ‘갠(GAN)’ 기술은 최근 인공지능 기반 이미지
전환기술로 크게 각광받고 있으며, 굿펠로우는 연구 논문 발표 후 구글의 인공지능 연구부서인 ‘구글 브레인’으로
자리를 옮겨 연구를 지속하고 있음
Ø 이언 굿펠로우에 의해 2014년에 처음 등장한 이 기법과 관련한 논문
수가 기하급수적으로 증가해서 최근에는 190편 이상이 학계에 보고되고 있는데, 페이스북의 AI 연구를 이끌고 있는 얀 르쿤 교수는 갠(GAN)을 가장 중요한 기술로 꼽고 있음
Ø 갠 신경망은 ‘대립쌍을 이루는(Adversarial)’ 두
개의 네트워크를 만들고, 상호 대립 과정에서 훈련 목표를 자동으로 생성하도록 학습시키는 모델임
Ø 통상 기계학습이 사람이 태그를 달아주는 방식으로 학습결과가 맞았는지 확인해주는 데 반해 갠 기법은 사람의 개입
없이 컴퓨터가 스스로 목표 이미지와 비교해서 생성한 이미지를 반복해서 평가하고 수정하는 과정 속에서 데이터 자체에서 지식을 얻는 ‘비지도 학습형’ 알고리즘임
Ø 최근 이미지 구별이나 음성 인식 등에 활용되는 인공지능 기술인 CNN이나 RNN은 ‘지도 학습형’ 알고리즘으로 이미지나 음성을 구별하고
인식할 뿐 만들어 내지는 못하는데, GAN은 생성 모델을 통해 직접 이미지와 음성을 만들어 낸다는 것이
큰 차이점임
Ø 엔비디아의 연구팀이 개발한 기술 역시 GAN을 이용한 것으로, 엔비디아는 논문을 통해 신경망이 유명인(celebrity, 셀럽)의 이미지를 자동으로 생성하는 기술을 공개했는데, 이 이미지는 실제
사람이 아닌 AI가 ‘유명인’이라는 개념을 이해하고 상상으로 생성해 낸 것임
<자료> Karras et al.
[그림 2] GAN이 생성한 유명인 이미지 |
Ø GAN으로 그린 가상의 유명인은 어디선가 본 듯한 것처럼 보이지만 실존 인물은 아니며, 구글에서 이미지 검색을 해도 해당 인물이 발견되지는 않는데, 한마디로 GAN은 진짜 같은 가짜를 생성해 내는 기술이라고도 할 수 있음
Ø 엔비디아가 발표한 논문은 GAN이 유명 연예인 외에도 침실, 화분, 말, 소파, 버스 등의 객체를 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을
보여주고 있음
생성적 대립쌍이라는 명칭이 붙은 이유는, GAN이 서로 경쟁하는 두
개의 신경망(dueling neural network) 구조를 통해 성능을 개선하고 딥러닝 모델을 진화시키기
때문
Ø GAN의 구조는 일반적으로 ‘감식자(Discriminator)’와 ‘생성자(Generator)’라는 두 개 층의 신경망으로 구성되는데, 양
측이 서로 충돌하면서 발생하는 차이점을 수정해 나가며 궁극의 균형점, 즉 진짜 같은 가짜의 생성에 이르게
됨
Ø 생성 네트워크는 진짜와 똑 같은 가짜 이미지를 생성하는 역할을 담당하는데, 생성자에
노이즈(랜덤 신호)가 입력되면 이를 토대로 가짜 이미지를
생성함
Ø 감식자는 입력된 데이터가 진짜인지 가짜인지를 판정하는데, 생성자가
만들어 낸 가짜(Fake) 이미지와 샘플 데이터세트에서 추출된 실제(Real)
이미지가 감식자에 입력되면 Fake 또는 Real 여부를
판정하게 됨
Ø 이 방식은 게임이론 중 ‘내쉬 균형(Nash Equilibrium)’, 즉
합리적 판단을 하는 상호 간의 게임이론에 따라 수학적으로 균형점을 찾는다는 이론이 적용된 것임
Ø 한 마디로 GAN은 생성자와 감식자가 대치하며, 매우 성공적인 가짜를 생성해내는 인공지능 기술이라 정의할 수 있음
<자료> Anton Karazeev
[그림 3] 대립쌍을 이루는 GAN의 작동 프로세스 |
GAN의 개념을 주창한 이언 굿펠로우는 대립쌍을 설명하면서 생성자와 감식자의 관계를 위조 지폐범과 경찰의 대결로
비유하였음
Ø 화폐 위조범(생성자 G)이
새로운 위폐를 만들어내면 경찰이나 은행원(감식자 D)은 이를
간파해야 하고, 위조범들이 이를 피하기 위해 더 그럴 듯한 위조 지폐를 만들면 경찰관들도 동시에 감식
기술을 향상시키는데, 이 과정을 통해 위조 화폐가 더욱 정교해진다는 것
Ø 즉 위폐범의 위조 기술과 경찰의 감식 기술이 서로를 자극하면서 발전을 거듭하면,
결국 위조화폐는 진짜 화폐와 같은 수준의 내쉬 균형점에 이르게 된다는 것으로, 현실에서는
감식자가 위폐범을 이겨야 하나 GAN에서는 위폐범의 승리가 목표임
Ø 이언 굿펠로우는 대립쌍을 설명하면서 수학 같이 명확한 답이 없지만 확률적으로 목표와 근사한 지를 끊임없이 확인하면서
이미지를 변환해 가면 결국엔 위폐일 확률과 진짜일 화폐일 확률이 각기 0.5가 된다고 표현하였음
Ø 인간과 AI가 대결과 공존을 해야 하는 시대에 인간이 우위를 점할
수 있는 영역으로 흔히 창의성과 예술 분야가 거론되지만, 알파고 등장에서 보듯 현실은 창의성에서도 AI의 우월성이 드러나는데, 위폐범의 승리를 목표로 하는 GAN 같은 기술의 등장이 그 원인이라 할 수 있음
이처럼 GAN은 매우 성공적인
가짜를 생성할 수 있으나 기술적으로 몇 가지 과제가 있었는데, 엔비디아는 특수 구조를 개발하여 과제를
해결해 가고 있음
Ø GAN의 과제는 알고리즘의 교육에
장시간 연산이 필요하다는 점과 알고리즘의 작동이 불안정하다는 점이었는데, 엔비디아는 서서히 이미지의
해상도를 높여 나가는 구조의 네트워크를 개발하여 문제를 해결하였음
Ø 엔비디아가 개발한 GAN의 특징은 학습 초기 단계에서는 낮은
해상도(4×4)의 네트워크를 사용하고, 학습이
진행되면서 점차 해상도를 올려 최종적으로 고해상도(1024×1024)의 네트워크를 사용해 선명한 이미지를 생성한다는 점
Ø 엔비디아의 GAN이 순차적으로 생성한 이미지와 생성에 소요된 시간을 살펴보면, GAN에
학습을 시작한 지 4시간 33분이 경과한 시점에 저해상도(16×16)의 이미지가 생성되어 사람으로 보이는 듯한 형상이 나타났음
Ø 1일 6시간이 경과한 시점에서 나타난 중간 해상도(64×64)의 이미지에서는 얼굴 윤곽이 뚜렷해졌으며, 5일 12시간이 경과한 시점에 나타난 고해상도(256×256) 이미지에서는 인물이 부드럽게 그려져 있지만 세부적으로 보면 군데군데 일그러진
곳이 있음
Ø 19일 4시간이 경과한 시점에 나타난 초고해상도(1024×1024) 이미지에서는 리얼한 인물이 완성되는데,
이처럼 엔비디아의 GAN은 감식자(Discriminator)의
스킬을 검증하면서 서서히 해상도를 올려나가는 방식을 통해 알고리즘 교육 시간을 약 20일로 단축하였음
<자료> Karras et al.
[그림 4] 점증적으로 해상도를 높여 나가는 엔비디아의 GAN
엔비디아가 GAN의 성능을 개선했지만, 고해상도의 이미지를 생성하려면 대규모 컴퓨팅 리소스를 필요로 하는 등 아직 연구를 통해 개선해야 할 것들이
많이 남아 있음
Ø GAN에서 선명한 이미지를 생성하기 위해서는 대규모 컴퓨팅 자원이 필요한데, 엔비디아의
경우 이 연구를 위해 NVIDIA Tesla P100 GPU(4.7 TFLOPS)를 사용하였음
Ø GAN의 알고리즘 학습에는 약 20일 정도가 걸렸는데, 많이 개선된 것이지만 고해상도의 이미지를 생성하려면 여전히 많은 처리 시간이 필요하며, 결국 완벽한 가짜 이미지 생성에 아직까지는 많은 비용이 소요됨을 의미함
Ø 또한 GAN으로 그려낼 수 있는 대상은 GAN이 학습을 마친 분야로 제한되기 때문에 현재는 유명 연예인 등 일부에 한정되는데, GAN의 교육 시간을 상당히 단축시키거나 혹은 폭넓은 분야를 커버하게 하려면 추가 연구가 필요한 상황임
GAN은 양날의 검이 될 위험성이 존재하지만, 현재 AI 기술 개발의 가장 큰 걸림돌을 해결할 단서가 될 수 있다는 점에서 AI 분야의
큰 돌파구가 될 수 있는 연구 주제임
Ø GAN은 현재 딥러닝이 안고 있는 많은 문제를 해결할 수 있는 비장의 카드가 될 가능성이 있는데, 비지도 학습(Unsupervised Learning)과 라벨이 없는
데이터(태그 없는 교육 자료) 분야의 연구를 크게 진전시킬
단서가 될 것으로 전망되고 있기 때문
Ø 이는 현재 AI 개발의 가장 큰 걸림돌이 되고 있는 문제, 즉 알고리즘을 교육하기 위해 대량의 태그 데이터가 필요하다는 문제의 해결책이 될 수 있음을 의미하며 이것이
개발자들이 GAN에 주목하는 가장 큰 이유임
Ø 반면 GAN에 대한 우려도 그만큼 크게 대두되고 있는데, GAN이 가상으로 그려낸 이미지는 사진 촬영을 한 연예인이라 해도 의심의 여지가 없으며, 실제와 똑 같은 가짜 앞에서 양자의 진위를 판정할 수 있는 사람은 아무도 없음
Ø 소셜 미디어에서 가짜 뉴스가 문제가 되고 있지만 GAN의 등장으로
이제는 가짜 사진이 사태를 더욱 복잡하게 할 가능성이 커졌으며, 인스타그램에 올라오는 사진들 역시 GAN이 만들어 낼 시대가 도래하고 있음
Ø 전문가들이라고 이런 문제를 비껴나갈 수 있는 것은 아니어서, 천문학자들은
이제 우주의 이미지를 직접 우주 공간에 나가서 사진 찍듯이 그려내고 있으며, 화산 폭발 장면을 실감나는
사진으로 표현하고 있음
Ø 또한 인체의 DNA가 어떻게 작동하는지 또 단백질이 어떻게 반응하는지를
직접 촬영한 사진처럼 표현하기도 하는데, 그럴듯한 이미지들과 함께 이런저런 학술이론을 제시하면 한마디
반박조차 못하고 감쪽같이 설득 당할 수밖에 없음
Ø GAN 의 등장은 현실과 가상현실 사이에서 진위의 구분이 무의미해지는 시대의 도래를 시사하며, 양날의 검이 될 수 있는 GAN의 활용 범위와 방안을 놓고 AI 개발자 커뮤니티뿐 아니라 일반인 사이에서도 다양한 논쟁이 벌어질 것으로 보임