※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1853호(2018. 7. 4. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

2D 축구 경기 영상을 증강현실(AR)로 재현해 주는 신기술 개발.pdf



워싱턴 대학 연구팀은 구글, 페이스북과 협업을 통해 일반 2D 축구 경기 영상을 변환해 테이블 위에서 마치 실제 축구가 벌어지는 듯이 보여주는 증강현실(AR) 기술을 개발


연구팀은 솔트레이크 시티에서 열린 컴퓨터 비전 및 패턴 인식 컨퍼런스(Computer Vision and Pattern Recognition conference)’에서 탁자 위의 축구(Soccer On Your Tabletop)’라는 새로운 기술을 발표


이 기술은 2D 축구 영상을 입력받아 3D로 재구축한 후 탁자 등 평면 위에 투사해 주는 것으로, 이용자가 AR 헤드셋을 착용해 이 3D 경기 영상을 볼 수 있음


연구팀은 이 기술을 이용하면 직접 경기장에 가서 경기를 보는 것만큼 좋지는 않지만 TV를 통해 경기를 보는 것 보다는 더 나은 경험을 얻을 수 있다고 주장

 


<자료> Konstantinos Rematas

[그림 1] AR 기반 기술 탁자 위의 축구


탁자 위의 축구시스템은 입력된 경기 비디오를 면밀히 분석한 구 각 선수와 그들의 움직임을 개별적으로 추적함


그 다음 각 선수들의 움직임은 축구 비디오 게임에서 추출한 3D 모델로 매핑되며, 3D로 표현된 경기장 위에 배치되는데, 기본적으로 FIFA 18과 같은 게임을 실제 현실과 결합하여 일종의 미니어처를 만들어 낸 것이라 보면 됨


PC용 축구 게임에서 추출한 선수 데이터를 3D 공간에 재배치하는 작업은 컨볼루셔널 뉴럴 네트워크(CNN)’라는 딥러닝 알고리즘이 담당함


탁자 위의 축구는 아직 개발 도중에 있지만, 2D 영상을 모든 방향과 각도에서 볼 수 있는 입체 영상으로 재구성한다는 아이디어에는 큰 기대와 호평이 쏟아졌음


대략적인 기술 프로세스를 살펴보면, 우선 축구 경기장에는 흰색 라인이 그어져 있으므로 이를 카메라 보정에 사용하는데, 라인 선상 위에 늘어선 선수들을 감지해 각 선수의 몸의 움직임을 추정한 다음 그 앞뒤에 있는 선수의 움직임을 추적함


각 선수들의 동작 추적에서는 포즈의 심도까지 추정 가능하므로, 좌우의 어느 다리가 앞쪽에 있는지 등도 알 수 있음


마지막으로 메쉬를 생성하고 경기에 출전한 선수들의 데이터를 이용하여 경기 자체를 재구성하면, 마치 책상 위에서 축구 경기가 펼쳐지는 듯한 AR 경험을 제공할 수 있음


<자료> TechCrunch

[그림 2] AR 기반 3D 재구성 기술


탁자 위의 축구는 아직 개발 중인 만큼 선수의 움직임 등이 정확하게 재현되는 것이 아니며 해상도 역시 아직 완성도가 많이 떨어지지만, 한 각도의 영상을 모든 각도에서 볼 수 있는 입체 영상에 재구성 할 수 있다는 것은 멋진 아이디어라는 평가


축구 경기를 TV로 볼 때 나쁜 점은 모든 사람이 앉아서 단일 방향의 각도에서 잡은 똑같은 화면만을 바라보아야 한다는 것이고, 카메라에 잡히지 않은 장면은 알 수가 없기 때문에 작전과 전술을 이해하고 분석할 수 없다는 것임


이는 경기장에 직접 갈 경우 자리에 따라서 관객들이 보는 장면이 다 다르고, 모든 선수들의 움직임을 알 수 있는 관람 경험과 비교할 때 매우 아쉬운 점인데, 새로 선보인 탁자 위의 축구는 이런 문제를 해소할 수 있음


탁자 위의 축구기술의 소스코드는 현재 깃허브에 공개되어 있음(https://github.com/krematas/soccerontable)

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1848호(2018. 5. 30. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

막기 어려운 딥페이크 동영상, 비판적 미디어 수용 능력 필요.pdf



[ 요 약 ]


일반 PC와 딥페이크 소프트웨어만 있으면 수백만 달러짜리 할리우드 편집 툴보다 훨씬 정교하게 영상 속 얼굴을 다른 사람의 얼굴로 바꿔치기 할 수 있는 시대가 도래하였음. 누구나 쉽게 진짜와 가짜의 구분이 어려운 딥페이크 영상을 만들 수 있게 되면서, SNS를 통해 사진과 동영상이 범람하는 시대에 살고 있는 사람들에게 이제 매스 미디어가 등장한 이래 그 어느 때보다도 합리적이고 비판적인 미디어 수용 능력이 요구되고 있음



[ 본 문 ]


2016년 미 대선이 페이스북을 통해 유포된 가짜뉴스로 얼룩졌다면, 올해 11월 열릴 중간선거에서는 AI를 악용한 가짜 동영상이 여론을 조작할 것이라는 우려가 제기되고 있음


지난 미 대선 과정에서 대량 유포된 가짜뉴스의 배후에 러시아가 개입했다는 정황에 대한 수사가 진행 중이고, 유포과정에서 페이스북의 역할에 대한 청문회 등이 열리면서 가짜뉴스에 대한 사회적 경각심이 형성되었음


그러나 가짜뉴스를 없애기 위한 법적, 기술적 조치들이 강화되어도 기술의 발전에 의해 더욱 교묘한 방식의 가짜뉴스들이 생성, 유포되고 있는데, 최근에는 가짜 동영상이 기승을 부리며 새로운 사회문제로 부상하고 있음


가짜 동영상은 악의적으로 조작된 비디오로 인공지능(AI)이 실제로는 존재하지 않는 현실을 담은 영상을 리얼하게 그려 냄


올해 4월에 버즈피드에 올라온 오바마 전 대통령의 연설 동영상은 가짜 비디오가 얼마나 정교한지, 그래서 얼마나 큰 혼란을 야기할 수 있는지 실감나게 보여주었음


영상을 보면 성조기 앞에서 차분히 연설을 하던 오바마는 갑자기 트럼프는 천하에 쓸모없는 놈(dipshit)’이라며 비속어로 비난하는 장면이 나옴


동영상을 보던 사람들이 오바마의 막말에 재미 혹은 당혹감을 느끼는 순간, 동영상은 화면이 분할되며 영화감독이자 배우인 조던 필(Jordan Peele)의 모습을 오바마와 나란히 보여주기 시작함


<자료> BuzzFeed

[그림 1] 입모양까지 똑같이 만든 가짜 동영상


동영상은 필이 말하는 대로 오바마가 말한다는 것을 확인시켜 주는데, 완전 리얼하게 입모양까지 똑같이 움직이고 있다는 것을 보여주고 있음


필이 등장할 때까지는 이것이 가짜 동영상임을 전혀 알아차리기 어려웠는데, 비디오 속의 목소리는 필의 실제 음성이었지만, 그는 오바마 대통령의 성대모사에 일가견이 있어 목소리를 구분하기가 쉽지 않았기 때문


이 가짜 비디오는 오바마의 연설 내용을 자기 마음대로 바꾸어 조작할 수 있음을 보여 줌으로써 이 기술이 내포함 심각한 위험성을 사람들이 알아차리게 할 목적으로 버즈피드와 조던 필이 공동을 제작한 것임


새로운 사회 문제로 떠오르고 있는 가짜 동영상을 손쉽게 제작할 수 있게 해주는 이 기술은 흔히 딥페이크(DeepFake)’로 불리고 있음


딥페이크라는 명칭은 이를 맨 처음 만든 사람의 아이디에서 유래했는데, 레딧(reddit)에서 ‘Deepfakes’라는 아이디를 쓰는 이용자가 작년 11월에 텐서플로우 같은 오픈소스 소프트웨어를 이용해 유명 연예인과 포르노를 합성하여 관심을 끌었음


레딧에는 곧 ‘deepfakes’라는 서브 레딧이 만들어졌고, 올해 1월에는 ‘deepfakeapp’라는 아이디를 쓰는 유저가 ‘FakeApp’이라는 무료 앱을 제작해 배포하였음


<자료> Reddit

[그림 2] FakeApp 최신 버전(2018. 02)


FakeApp은 초보자도 잠시만 배우면 사용할 수 있을 정도로 쉬워 수많은 사람들이 앱을 이용해 딥페이크 영상을 만들기 시작했으며, 올해 2월 딥페이크 서브 레딧은 폐쇄되었지만 영상들은 이미 걷잡을 수 없이 퍼져나가고 있음


페이스북은 2014년에 딥러닝 기반의 얼굴 인식 기술인 딥페이스(DeepFace)’를 개발하기 시작해 2017년에 런칭한 바 있는데, 딥페이크는 페이스북의 딥페이스 기술을 응용해 개발한 것으로 알려지고 있음


딥페이크 기술로 만들어진 가짜 동영상은 유명 연예인을 대상으로 삼는 경우가 많으며, 트럼프와 푸틴 대통령 등 거물 정치인들도 주요 타깃이 되고 있음


대체로 ‘Deepfakes Replacement(딥페이크 대체)’라는 타이틀을 달고 있는 이 가짜 동영상들에 자주 등장하는 대표적 유명인은 배우 니콜라스 케이지


케이지의 딥페이크 영상은 흔한 인터넷 놀이의 하나로 볼 수 있는데, 영화 골드핑거의 주인공인 션 코너리의 얼굴이나 인기 프로그램 SNL의 크루인 앤디 샘버그의 얼굴을 니콜라스 케이지로 대체한 영상들이 대표적


정치인에 대한 딥페이크 영상은 풍자 목적이 강한데, 트럼프 대통령 흉내로 정치 풍자 코미디를 진행하고 있는 배우 알렉 볼드윈은 딥페이크 기법을 이용해 트럼프로 분장한 자신의 얼굴을 실제 트럼프의 얼굴로 대체한 영상을 공개해 화제가 된 바 있음


<자료> DeepFakes

[그림 3] 트럼프 풍자 가짜 동영상


앞서 조던 필의 경우와 마찬가지로 볼드윈이 제작한 영상에서 트럼프의 말은 사실은 볼드윈이 한 것이며 얼굴만 진짜 트럼프로 대체된 것이기 때문에, 가짜 동영상인지 여부를 구별하는 것은 쉽지 않음


단지 풍자 목적이라면 재미로 넘길 수도 있으나, 진짜와 가짜의 구분이 쉽지 않은 상황에서는 이 기술이 악용될 경우의 폐해를 먼저 우려하지 않을 수 없는데, 트럼프의 경우는 돌출 발언도 잦기 때문에 가짜 동영상의 폐해는 더욱 크게 나타날 수 있기 때문


뭐니뭐니해도 딥페이크 기술이 가져올 수 있는 가장 큰 위험은 딥페이크 영상이 최초 만들어진 목적에서 보듯 포르노 영상에 적용되고 이것이 광범위하게 유포되는 것임


작년 연말에는 포르노 배우의 얼굴을 영화 원더 우먼에서 타이틀 롤을 맡은 이스라엘 여배우 갤 가돗(Gal Gadot)의 얼굴로 바꾼 가짜 동영상이 인터넷에 게재되어 본인은 물론 사회적으로도 큰 충격을 준 바 있음


과거에도 이런 사례는 있었으나 영상이 조악하거나 합성임을 알아차릴 수 있어 해프닝으로 넘어갔다면, 딥페이크로 만든 이 영상은 갤 가돗이 정말 포르노 영화에 출연한 것 아니냐는 생각을 잠시라도 불러일으켰다는 점에 사태의 심각성이 있음


실제와 구분이 어려워 현실감을 줄 수 있기 때문에 이러한 영상을 찾으려는 수요가 발생할 수 있고, 이렇게 되면 딥페이크를 이용한 포르노 영상은 더욱 확대 재생산될 수밖에 없어 거의 모든 유명인들이 피해자가 될 수 있음


이미 갤 가돗 외에 배우 엠마 왓슨, 뮤지션인 케이티 페리와 테일러 스위프트 등 많은 유명인이 피해를 입었으며, 아시아 지역에서는 K-팝 여가수들이 타깃이 되고 큰 피해를 입고 있음


최근에는 유명인 이외에 일반인을 대상으로 딥페이크 영상을 만든 후 배포 위협을 하며 돈을 요구하는 악질 범죄들도 시도되고 있어 더 큰 사회적 문제를 낳고 있음


일반인 대상 범죄 역시 확산될 가능성이 있는데, 이미 사회적으로 리벤지 포르노가 문제가 되고 있는 상황에서, 진짜처럼 보이는 가짜 동영상이 유포될 경우 입게 될 충격과 공포는 형언할 수 없기에 피해자들은 어쩔 수 없이 협박에 응할 수밖에 없기 때문


SNS를 통해 하루에도 수십 개의 사진과 동영상을 올리고 많은 사람이 볼 수 있는 시대에서는 이제 누구나 딥페이크 영상의 잠재적인 피해자가 될 수 있음


딥페이크 영상이 가능하게 된 배경에는 딥러닝 등 인공지능(AI) 기술이 자리잡고 있는데, 기초 기술에 대한 논문이 발표되어 주요 내용들이 다 공개되어 있음


AI를 적용한 소프트웨어들은 사진과 비디오에 등장하는 인물의 얼굴을 다른 얼굴로 바꿀 수 있는 기능을 구현할 수 있음


<자료> Iryna Korshunova et al.

[그림 4] AI를 이용한 빠른 얼굴 스와핑


201611월 발표된 ‘CNN을 이용한 신속한 얼굴 뒤바꾸기(Fast Face-swap Using Convolutional Neural Networks)’라는 제목의 논문은 원본 사진의 얼굴을 다른 사람의 얼굴로 대체하는 기술을 소개하고 있음


Fast_Face-swap_Using_Convolutional_Neural_Networks.pdf



논문은 여러 유명인의 얼굴을 니콜라스 케이지와 테일러 스위프트의 얼굴로 바꾸는 과정을 설명하고 있는데, 얼굴의 방향, 시선, 입술의 모양, 헤어 스타일은 원래 이미지를 그대로 두고 눈, , 입술, 눈썹, 얼굴 주름 등은 두 사람의 것으로 대체하였음


구체적으로는 입력 이미지에서 눈코입의 배치 정보를 추출하고 대체할 이미지의 눈코입 객체를 입력 이미지의 배치 정보에 맞게 재배치하여 스티칭하는 프로세스임


따라서 원본 이미지의 얼굴과 대체하려는 이미지의 얼굴이 전체적인 형태가 유사할 경우 어색하거나 코믹한 느낌이 없어지고 보다 자연스럽게 받아들여지게 됨


논문의 제목에 신속한(fast)’이라는 단어가 사용된 것은 이 얼굴 바꿔치기 과정을 사람이 일일이 손으로 할 수도 있지만, 소프트웨어를 이용하면 퀄리티는 손으로 할 때보다 떨어지지만 아주 빠르게 할 수 있기 때문


<자료> Iryna Korshunova et al.

[그림 5] AI를 통한 얼굴 스와핑 프로세스


딥러닝을 이용한 얼굴 스와핑의 정교성을 높이려면 상당한 컴퓨팅 파워가 필요하나 하드웨어 발달로 인해 일반적인 컴퓨터에서도 구현이 가능한 상황임


딥페이크는 딥러닝 기법으로 얼굴을 이해하고 서로 다른 두 사람의 얼굴을 대체하는 기법을 학습하는데, 구체적으로는 컨볼루셔널 신경망(Convolutional Neural Networks, CNN)'으로 원본 얼굴과 대체 얼굴의 특징을 학습한 후 이 둘을 서로 바꿈


신경망 학습을 위해서는 양자의 얼굴 사진을 대량으로 입력하여 알고리즘이 얼굴의 특징 및 대체 프로세스를 학습하게 하는데, 응용 프로그램은 엔비디아의 개발환경인 CUDA에서 실행되며 프로세서로 엔비디아 GPU가 필요함


진짜처럼 보이게 하기 위한 학습 및 대체 과정에는 상당한 연상량이 발생하지만, 할리우드급의 특수 촬영을 누구나 쉽게 할 수 있게 된 이런 시대에는 컴퓨터에 엔비디아 그래픽 카드를 탑재한 구성만으로 실행할 수 있음


얼굴을 대체하는 알고리즘은 학술 주제로 대학 등에서 연구가 진행되고 있었던 것인데, 그 연구 성과가 소프트웨어의 형태로 공개되었고 사용하기 쉬운 툴로 개선되어 깃허브에 공개되면서 단숨에 확산되었음


대학 등에서 얼굴 대체 알고리즘 개발을 연구한 이유가 무엇인지는 정확히 나와 있지 않지만, 이 기술은 공개되자마자 가짜 포르노 영상에 가장 먼저 악용됨으로써 범죄의 도구로 전락하게 될 상황이 전개되고 있음


딥페이크 기술의 위험성은 누구나 손쉽게 이용할 수 있게 된 반면, 그 진위 여부를 가리기 위한 대응책의 마련에는 5~10년이 걸릴 것으로 예상된다는 데 있음


이미 어도비 포토샵 같은 이미지 편집 툴을 이용한 사진이나 비디오 변조가 가능하긴 했지만, 이는 전문가가 직접 손으로 조작을 해야 가능한 것임


반면 딥페이크는 AI 기술이 접목되어 사진과 비디오 조작 프로세스가 자동화됨으로써 초보자도 손쉽게 가짜 비디오를 만들 수 있게 된다는 데 심각성이 있음


바꾸려는 대상을 다양한 각도에서 찍은 사진을 모은 다음 사진값을 대입할 영상을 고르기만 하면, 나머지는 소프트웨어라 해주길 기다리기만 하면 되는데, 지금은 약 40시간 정도를 기다려야 하지만 이 대기시간도 아마 더욱 더 줄어들 것임


<자료> BBC

[그림 6] 딥페이크 제작 프로그램 FakeApp


딥페이크 소프트웨어가 맨 처음 등장하고 나서 전문가들은 기술이 보편화될 때까지 1년 정도 걸릴 것으로 내다봤지만 실제로는 1달 만에 보편화되었음


상황이 이렇다보니 선거 과정에서 가짜뉴스로 홍역을 앓았던 미국 사회는 당장 11월 중간 선거 과정에서 가짜 비디오를 악용하려는 시도에 대해 걱정하지 않을 수 없음


가짜뉴스 방치에 대한 책임을 추궁당하고 있는 페이스북은 이미 AI를 이용해 혐오 조장 연설을 걸러내겠다는 의지를 표명하고 있지만, 기술이 완성될 때까지는 5~10년이 걸릴 것으로 자체 예상하고 있음


다른 기업들도 가짜 비디오를 감지하는 기술의 개발에 몇 년이 더 걸릴 것으로 보고 있기 때문에, 이번 중간 선거에서는 유효한 방지 수단이 없는 실정임


이는 비단 미국만의 우려는 아닐 것이며, 모든 국가와 시민사회가 당면한 새로운 위험요인인데, 당장 우리나라만 하더라도 가령 북미회담이 취소되고 트럼프가 북한을 군사 공격한다는 내용의 가짜 비디오가 만들어진다면 이것이 미칠 악영향은 매우 큼


딥페이크 기술은 AI가 빛과 그림자를 동시에 가져올 것임을 보여주는 또 하나의 사례이며, 따라서 시민들 스스로 자신과 사회를 보호하기 위한 적극적 노력이 필요함을 시사함


딥페이크 영상이 퍼짐에 따라 일단 커뮤니티들은 빠르게 대응하고 있는데, 이미지 호스팅 사이트인 기프캣은 딥페이크 관련 모든 게시물을 삭제했으며, 딥페이크가 맨 처음 시작된 레딧 역시 조치를 취할 것으로 알려졌음


구글은 아직 딥페이크에 대해 검색 차단 입장을 내놓고 있지 않지만, 유튜브가 딥페이크 비디오의 주요 유포 경로이기 때문에 고심이 큰 것으로 보임


<자료> The Deepfake Society

[그림 7] 딥페이크 대응이 필요한 유튜브


가짜 동영상은 유명인은 물론 일반인들까지 한 개인의 삶을 피폐하게 만들 수 있으며, 한 사회 나아가 국제 평화를 위험에 처하게 만들 위험성도 내포하고 있음


그러나 기술적으로 대응할 수단이 아직 없는 상황이므로, 당분간 문제의 해결은 오롯이 각 개인과 시민사회의 몫으로 남겨질 수밖에 없으며, 각자 피해를 당하지 않도록 조심하고 또한 누군가에게 피해를 줄 수 있다는 점을 자각하는 것이 필요함


따라서 딥페이크 영상은 윤리적 문제이기도 하지만 한편으로는 시민사회의 분별력, 합리적 추론 능력을 시험하는 문제이기도 함


이미 가짜뉴스 유포가 일상화되어 있고, 여성 뮤지션들이 딥페이크 영상의 주요 피해자가 되고 있는 우리나라 역시 딥페이크 기술에 대한 사회적 성찰과 감시 노력이 다른 어떤 사회보다도 필요할 것임


트래픽 경쟁에 내몰린 언론들이 사실 확인을 거치지 않은 오보를 의도적인 왜곡 보도를 내보내도 이에 대한 견제나 처벌이 유명무실한 한국의 미디어 상황은 딥페이크 영상을 통해 혼란을 야기하려는 불순세력에게는 더할 나위 없이 좋은 환경일 수 있음


얼굴 스와핑 기술은 이미 도래했고 늘 그렇듯 기술을 되돌릴 수 있는 길은 없기 때문에, ‘보는 것이 믿는 것이다라는 소비 태도보다는 자발적인 해석 노력과 합리적 의심에 기반을 둔 질문하는 능력을 키우는 것이 우리 사회에 요구되고 있음

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1843호(2018. 4. 25. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

퀄컴 IoT 센서 전용의 신형 칩 발표, AI 보안 카메라 등 개발 촉진.pdf



ž 퀄컴은 IoT 엣지 디바이스의 비전 처리 전용 브랜드로 Qualcomm Vision Intelligence Platform을 만들고, 그 첫번째 행보로 SoC(시스템온칩) 제품 2개를 발표하였음


Ø 퀄컴은 칩뿐만 아니라 관련 소프트웨어도 제공하며, 이 중에는 학습된 신경망을 SoC에 구현하여 AI 추론을 실행하는 소프트웨어도 포함되어 있기 때문에, 칩과 소프트웨어를 조합하면 가령 AI 보안 감시 카메라의 개발을 보다 용이하게 할 수 있음


Ø 퀄컴은 Vision Intelligence Platform(비전 인텔리전스 플랫폼)의 응용분야로 산업 및 생활용 감시 카메라와 스포츠 카메라, 웨어러블 카메라, 360도·180도 가상현실(VR) 카메라, 로보틱스, 스마트 디스플레이 등을 꼽고 있음


<자료> Future Source


[그림 1] QCS605칩과 360 VR 카메라


Ø 퀄컴의 보도자료에 따르면 카메라와 스마트 도어락 제품을 판매하는 리코(RICOH)와 중국 KEDACOM(Keda Communications) 등이 비전 인텔리전스 플랫폼을 이용해 다양한 카메라 기기를 개발할 계획임


Ø 이번에 발표된 2 종류의 SoCQCS605QCS603은 모두 삼성전자의 1세대 10nm FinFET 공정(10LPE)에서 제조하게 되며 현재 샘플 제품을 출하 중에 있음


Ø 퀄컴과 대만의 알텍(Altek)은 현재 QCS605를 기반으로 한 360 VR 카메라의 레퍼런스 디자인을 제공 중이며, QCS603을 기반으로 한 산업용 감시 카메라의 레퍼런스 디자인은 2018년 하반기에 제공할 예정임


ž 비전 인텔리전스 플랫폼에서 주목 받고 있는 AI 추론 처리는 퀄컴AI 엔진을 통해 제공되는데, 퀄컴은 학습된 신경망을 AI 엔진에 맞게 최적화하는 소프트웨어도 제공하고 있음


Ø QCS605QCS603은 모두 퀄컴의 스마트폰용 SoC스냅드래곤(Snapdragon) 프로세서에서 이동통신(LTE)용 모뎀 회로를 제외했을 뿐 동일한 칩 내부 구성을 채택하고 있는데, QCS605가 상위 제품으로 QCS603보다 동작 주파수가 높고 기능이 많음


Ø CPU 코어를 예로 들면, 두 칩 모두 ARMv8-A 아키텍처에 퀄컴 독자적인 마이크로 아키텍처인 카이로(Kyro) 300을 통합했으나, 상위 제품인 QCS605는 동작 주파수 2.5GHz카이로 300 골드 2개와 동작 주파수 1.7GHz카이로 300 실버 6개 등 총 8코어로 구성


Ø 반면 하위 제품인 QCS603은 동작 주파수 1.6GHz카이로 300 골드 2개와 동작 주파수 1.7GHz카이로 300 실버 2개 등 총 4코어 구성을 채택하였음


Ø CPU 코어를 제외하면, 두 제품 모두 GPU 코어로는 퀄컴 아드리노(Adreno) 615, DSP(디지털신호처리) 코어로는 퀄컴 헥사곤(Hexagon) 685 벡터 프로세서, ISP(이미지신호처리) 프로세서로는 퀄컴 스펙트라(Spectra) 270을 탑재하고 있음


Ø 이 밖에 IEEE 802.11ac 지원 와이파이 회로(QCS605 2×2 MIMO 지원), 블루투스 5.1 회로, GNSS(글로벌 내비게이션 위성 시스템) 수신 회로, 동영상 압축 신장 회로, 오디오 처리 회로, 디스플레이 출력 회로 등을 탑재하고 있어 기능은 매우 풍부한 편


Ø 비전 인텔리전스 플랫폼의 AI 추론 처리가 이루어지는 퀄컴 AI 엔진 시스템에서는 신경망 처리 전용 회로가 아닌 앞서 기술한 CPU 코어, GPU 코어, DSP 코어 등 3종의 프로세서 코어를 이용함


Ø 구체적으로 살펴보면 스냅드래곤 신경 처리 엔진(Neural Processing Engine, NPE)이라 불리는 소프트웨어가 학습된 신경망을 3종의 프로세서 코어에 분산하는 형태로 구현함


Ø 이를 위해 퀄컴은 텐서플로우(Tensorflow)나 카페(Caffe) 등 업계 표준 프레임워크를 통해 학습된 신경망을 AI 엔진에 최적화하는 소프트웨어도 함께 제공하고 있음


ž 한편, 반도체 소프트웨어 프로그래밍 업체인 카덴스 디자인 시스템(Cadence Design Systems)도 비전 처리 및 AI 추론 처리를 위한 DSP 코어 신제품을 발표하였음


Ø 신제품 텐실리카 비전(Tensilica Vision) Q6 DSP(이하 비전 Q6)DSP 연산을 수행하는 회로로, 비전 처리 및 AI 추론 처리용 IC 설계 시에 이용됨


Ø 이전 제품인 비전 P6 DSP에 비해 연산 성능이 1.5, 전력 효율이 1.25배 증가하였는데, 16nm FinFET 프로세스에서 비전 Q6를 구현하는 경우 최대 동작 주파수는 1.5GHz


Ø 카덴스 측에 따르면 비전 Q6는 비전 P6와 마찬가지로 단독으로 비전 처리나 AI 추론 처리도 가능하지만, 규모가 큰 CNN(Convolutional Neural Network)을 처리하는 경우 상위제품인 비전 C5 DSP와 조합하여 사용하는 것이 효율적이라고 함


Ø 비전 Q6P6가 는 256 병렬 처리가 가능한 반면 비전 C5 1024 병렬 처리가 가능하기 

때문인데, 단 그렇기 때문에 비전 C5는 소형화 면에서 칩 면적이 커지는 단점은 있음


<자료> Cadence IP


[그림 2카덴스 디자인 시스템의 DSP 제품별 주 사용 용도


ž DSP 코어 신제품은 AI 추론 처리를 위한 지원 기능이 풍부해졌으며, 카덴스는 비전 처리나 광범위한 데이터 처리를 위한 다양한 개발 플로우도 준비하고 있음


Ø 추가된 지원 기능 중 대표적인 것은 안드로이드 신경망(Android Neural Network, ANN) API 지원으로, 안드로이드용 앱에서 비전 DSP의 호출이 용이하게 되었음


Ø 또한 대응 가능한 학습 프레임워크도 늘었는데, 지금까지 지원한 카페 외에도 텐서플로우와 텐서플로우 라이트도 지원함


Ø CNN 중에 사용자 고유의 커스텀 계층을 넣는 작업도 쉽게 할 수 있게 했는데, MobileNet, SegNet, YOLO 등 업계에서 잘 알려진 학습된 CNN의 동작 검증을 시행할 수 있음


Ø 카덴스 측은 학습된 신경망에서의 개발 흐름뿐만 아니라 비전 처리나 광범위한 데이터 처리를 위한 개발 플로우도 준비하고 있는데, OpenCL 또는 C/C++, OpenVX 등으로 작성한 디자인도 DSP에 구현할 수 있게 하려는 것임

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1835호(2018. 2. 28. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

차세대 동작 인식 기술 발표 봇물, 소형화∙저전력화가 특징.pdf



[ 요 약 ]


마이크로소프트가 키넥트를 발표한 이래 동작 인식 기술은 게임뿐만 아니라 의료제조업 등 다양한 분야에서 새로운 인터페이스 방식으로 점차 확산되어 가고 있음최근 반도체 및 센서 기술의 발전에 힘입어 새롭게 업그레이드 되고 있는 차세대 동작 인식 기술은 소형화경량화저전력화가 특징이어서 스마트폰을 비롯해 보다 다양한 기기에 탑재될 가능성을 획득함으로써동작 인식의 활용이 보다 광범위하게 이루어질 수 있는 모멘텀을 확보하고 있음



[ 본 문 ]


ž 집적회로 기술 관련 국제 컨퍼런스인 International Solid-State Circuits Conference(ISSCC) 2018에서 차세대 동작 인식 기술이 잇따라 발표되었음


Ø 손이나 몸의 움직임을 인식하여 기기 조작의 인터페이스로 사용하는 동작(gesture) 인식 기술은 2010년 출시된 마이크로소프트의 동작 입력 컨트롤러 키넥트(Kinect)를 계기로 대중적으로 알려지기 시작했음


Ø 키넥트는 MS의 게임 콘솔인 X박스와 짝을 이루며 주로 게임 분야에서 활용되었으나, 그 밖에도 직접 기기 조작이 어려운 수술실에서 이용하는 등 점차 응용처가 확산되어 왔음


<자료> Marnent


[그림 1] 수술실의 동작 인식 인터페이스


Ø 최근에는 VR(가상현실)/AR(증강현실) 애플리케이션에서 활용이 적극 모색되고 있기도 하며, 스마트폰이나 헤드마운트디스플레이(HMD)에 동작 인식 기술을 탑재하려는 움직임도 시작되었음


Ø 2월 중순에 샌프란시스코에서 열린 ISSCC 2018 컨퍼런스에서는 이처럼 새로운 분야에 적용될 것을 겨냥한 차세대 동작 인식 기술들이 다수 선보였는데, 신기술들은 이전의 동작 인식 기술에 비해 소비 전력과 비용은 절감하고, 계측 성능은 대폭 강화한 것이 특징임


ž 차세대 동작 인식 기술들은 우선 적외선을 사용하지 않아 전력 및 비용을 크게 절감하고고 있는데, 우리나라의 KAIST가 선보인 손 동작 인식 IC 칩이 대표적


Ø 동작 인식 입력 컨트롤러에서 사용하는 심도 이미지 센서의 경우, 빛을 쐰 후 되돌아 올 때까지의 비행 시간으로 거리를 추정하는 ToF(Time of Flight) 방식이 일반적임


Ø 혹은 특정한 2차원 패턴(도트)광을 대상물에 쏘이고, 촬상 소자가 획득하는 패턴광의 왜곡을 바탕으로 심도를 측정하는 SL(Structured Light) 방식을 사용하기도 함


Ø ToF SL 방식 모두 비교적 정밀하게 동작을 인식할 수 있지만 적외선을 이용하므로 발광 소자나 수광 소자 등의 광학 소자가 필요하기 때문에, 그 만큼 소비 전력의 증가나 비용 상승으로 이어지기도 쉬움


Ø 이런 문제를 해결하고자 올해 ISSCC에서는 적외선을 이용하지 않는 방법의 제안이 잇따랐는데, 대표적으로 KAIST는 스테레오 카메라를 이용해 전력 소모가 작은 손짓 인식 IC의 프로토타입을 제작하여 선보였음


Ø KAIST는 좌우 한 쌍의 카메라 이미지에 대해 대응점을 탐색하고 시차 정보로부터 이미지의 심도 정보를 얻는 스테레오 매칭 방식을 채택하였음



<자료> ISSCC


[그림 2] KAIST가 시험 제작한 손 동작 인식용 IC의 주요 사양()과 데모 장면(아래)


Ø 스테레오 매칭 방식은 ToF 방식 등에 비해 전력 소모가 작은 장점이 있지만, 손짓의 오인식이 발생하기 쉽다는 문제가 있었는데, KAIST는 손의 식별과 심도 추정에 인공지능 알고리즘의 하나인 CNN(Convolutional Neural Network)을 이용하여 인식의 정확도를 높였음


Ø 구체적으로는 말하면, KAIST의 방식은 20~40cm의 손 동작 인식 범위에서 추적 오차 (hand tracking error)가 평균 4.3mm 정도에 불과하고, 프로토타입 IC의 소비 전력은 한손 인식 시에 9.02 mW, 양손 인식 시에 31.2 mW로 매우 낮음


Ø KAIST 팀은 프로토타입 IC를 구현한 USB 동글을 스테레오 카메라 장착 노트북에 끼워 손짓을 인식하는 데모를 선보였는데, 가상 공간에 나타난 입방체를 손으로 잡거나 늘리는 모습을 보여주었음


ž 밀리미터파를 이용하여 저전력으로 동작을 인식하려는 기술도 나왔는데, 이런 방식의 데모는 인피니온(Infineon)과 텍사스 인스트루먼트(Texas Instruments, TI)가 선보였음


Ø 인피니온은 ISSCC에 논문을 투고·발표한 것이 아니라, ISSCC의 담당 위원으로 추천 및 승인된 기업이 자사 제품과 기술을 홍보할 수 있는 인더스트리 쇼케이스(Industry Showcase)를 통해 기술을 공개하였음


Ø 인피니온은 소비 전력 100 mW 미만의 소형(12.5mm × 9mm × 0.8mm) 동작 인식 밀리미터파 레이더(트랜시버) IC를 개발했는데, 측정 거리가 10m로 길다는 점도 특징


Ø TI는 시험 제작한 밀리미터파 레이더용 트랜시버 IC를 사용하여 동작 인식 데모를 보여주었는데, IC는 이번 ISSCC에서 구두 발표된 것으로 주로 자율운전에서 차량 밖의 상황을 감지하기 위해 사용될 것이라고 함


Ø 그러나 TI는 원거리뿐만 아니라 근거리에서도 사용할 수 있음을 어필하기 위해 손가락의 움직임을 인식할 수 있다는 것을 데모 세션에서 선보였는데, 데모는 운전석 주변의 조작 패널에 적용하는 것을 가정한 것이었음


ž 이 밖에도 노르웨이의 스타트업인 엘립틱 랩(Elliptic Labs)이 인더스트리 쇼케이스에서 초음파를 이용한 동작 인식 기술을 선보였음


Ø 엘립틱 랩은 초음파의 가상 센서로 손짓을 인식하는데, 자신들의 인식 알고리즘을 채택한 소프트웨어를 스마트폰에 탑재하면, 전용 센서를 추가하지 않고도 동작 인식을 가능하게 해주기 때문에 가상 센서라 부르고 있음


Ø 엘립틱 랩은 이미 스마트폰에 탑재되어 있는 스피커를 초음파 송신기로, 마이크를 수신기로 이용하기 때문에 만약 스마트폰에 여러 개의 스피커가 내장되어 있다면 동작 인식의 정확도는 더욱 높아진다고 함


ž 동작 인식에 사용하는 ToF 방식의 심도 이미지 센서에서도 큰 진전이 있었는데, 마이크로소프트는 이번 ISSCC에서 100만 화소가 넘는 ToF 센서용 수광 소자를 발표하였음


Ø MS가 발표한 이미지 센서의 유효 화소 수는 1024×1024 픽셀, 화소 사이즈는 3.5μm각이며, 이 화소에 초당 30 프레임의 프레임 속도로 작동시킬 경우 소비 전력은 650 mW로 낮은 편이고, 칩 크기는 9.8mm×5.4mm 65nm 제조 공정에서 만들어진다고 함


Ø 또한 글로벌 셔터(global shutter)를 지원하기 때문에 빠른 몸짓을 보다 정확하게 인식할 수 있게 된 것도 특징임


Ø 전자제어 셔터에는 롤링 셔터(Rolling Shutter)와 글로벌 셔터 방식이 있는데, 롤링 셔터는 포컬 플레인에 있는 두 개의 차광막을 순차적으로 열고 닫는 구조여서 이미지 센서가 한 라인씩 신호를 읽게 되므로, 뒤로 갈수록 증가된 신호량의 적체 문제가 발생


Ø 반면, 글로벌 셔터는 전체를 동시에 노광시킨 후 한번에 닫아버리는 구조여서 한 프레임의 촬영 시점이 동일하기 때문에 시차에 의한 왜곡이 없는 장점이 있고 동영상 촬영에 보다 적합한 것으로 알려져 있음


Ø 통상 ToF 센서는 손을 빠르게 휘두르는 상태와 같이 빠르게 이동하는 객체가 있는 상황에서 배경광을 노이즈로 인식하기 때문에 거리 측정의 정밀도가 떨어지는 쉬움


Ø ToF 센서용 수광 소자는 통상 두 프레임 간의 차이를 취하여 배경광을 제거하므로, 다음 프레임이 되기 전에 객체가 움직이면 이전 프레임의 객체가 잔상으로 남아 노이즈가 되어 거리 측정 정밀도가 저하되는 것인데, 글로벌 셔터 방식이면 이런 문제가 거의 없어짐


ž MS는 시연을 통해 프로토타입 센서와 레이저 광원을 조합한 ToF 센서에 의한 측정 결과 등을 보여 주었는데, 2013년에 나온 2세대 키넥트 보다 성능이 크게 향상되었음


<자료> ISSCC


[그림 3] MS의 새로운 ToF 센서 시연 장면


Ø 고무적인 것은 광원을 포함해도 이 ToF 센서의 소비 전력이 950 mW 1W를 밑돈다는 것으로, 이는 모바일 기기에도 탑재될 수 있음을 의미하기 때문


Ø 심도의 불확실성(Depth Uncertainty) 3000 lux 미만의 밝기 환경에서 측거 범위의 0.2% 미만이었고, 측거 범위는 1024픽셀 × 1024 픽셀로 구동할 경우 0.4~4.2m였으며, FOV(시야각)은 수직과 수평 모두 120도였음


Ø 시연 결과 MS의 새로운 ToF 센서는 2세대 키넥트에 비해 성능이 크게 향상된 것으로 보이는데, 가령 화소 수는 약 4배 이상이며 소비 전력은 크게 낮아졌음


Ø 2세대 키넥트는 ToF 센서의 소비 전력이 컸기 때문에 냉각 기기가 컸고 냉각 팬도 붙어 있었으며, 따라서 키넥트 본체의 크기로는 도저히 모바일 기기에 탑재할 수 없었음


Ø 이에 비해 MS가 데모 세션에서 보여준 프로토타입의 ToF 센서 모듈은 마우스 정도의 크기였기 때문에 기술 발전 여하에 따라서는 스마트폰의 주변기기 나아가 스마트폰에 탑재될 수 있는 가능성을 보여주었음


ž 소형화-경량화-저전력화가 특징인 차세대 동작 인식 기술이 가장 먼저 활용될 분야로는 VRAR, 자동차 분야 등이 꼽히고 있으며, 특히 VR 시장의 촉매제가 될 것으로 기대됨


Ø 2016년에 고사양의 HMD들이 속속 선보이며 VR 시장이 본격화될 것이란 전망이 계속해서 제기되고 있으나 아직은 현실화되지 못하고 있음


Ø 여기에는 여러 이유가 있겠으나 센서를 외부에 놓고 HMD가 그 신호를 받아들여 위치와 동작을 인식하는 아웃사이드-인 방식으로 인한 번거로움도 한 요인으로 꼽힘


Ø 이에 비해 2세대 HMD는 센서 카메라를 HMD의 전면에 배치해 사용자의 위치와 움직임을 인식하는 인사이드-아웃 방식을 채택함으로써 PC가 필요 없는 스탠드얼론 형태를 띠고 있는데, 차세대 동작 인식 기술은 더 가볍고 편리한 HMD 출현을 촉진할 것으로 보임


Ø 자동차 분야에서는 운전자의 몸짓을 감지해 전방 주시 태만, 졸음 운전, 운전 중 전화 사용 등에 대한 경고를 알림으로써 안전도를 높이거나, 운전자의 손 동작을 인식해 에어컨을 켜거나 음악을 재생하는 등의 인터페이스를 구현해 편의성을 높여줄 것으로 기대됨

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1833호(2018. 2. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI로 AI를 개발하는 기술의 진전, 성당에서 시장으로 나오는 AI.pdf



[ 요 약 ]


현재의 범용 신경망이 제공하는 기능이 불충분하다고 느낄 경우 특정 용도의 고도 신경망을 개발할 필요성이 대두되나신경망을 새롭게 최적화하는 작업을 수행할 수 있는 AI 연구자는 극소수이고 개발 기간도 오래 걸리는 문제가 있음최근 구글은 사람이 아닌 AI가 신경망 고도화 작업을 수행하도록 하는 기술을 클라우드 서비스 형태로 공개하였는데누구나 쉽게 특정 용도의 AI를 개발할 수 있게 됨에 따라 더욱 혁신적인 AI가 출현할 가능성이 높아지고 있음


[ 본 문 ] 


ž 미국의 오크 릿지 국립 연구소(Oak Ridge National Laboratory)는 기존 범용 신경망을 이용한 연구에 한계가 있음을 느끼고 과학 연구 전용의 고도 신경망 개발에 나서게 있음

Ø 오크 릿지 연구소는 미국 에너지부 산하 기관으로 과학의 수수께끼 규명을 목표로 하고 있는데, 세계 최고 수준의 수퍼 컴퓨터인 타이탄(Titan)을 운용하는 곳으로도 유명함



<자료> Wikimedia Commons

[그림 1] 수퍼 컴퓨터 타이탄


Ø 타이탄은 크레이(Cray) 사가 개발했으며, 18,688개 노드로 구성된 병렬 머신으로 각 노드에 CPU(AMD 옵테론) GPU(엔비디아 케플러)를 탑재한 세계 최대 규모의 수퍼 컴퓨터임


Ø 이 연구소는 몇 년 전부터 최근 급속히 발전한 이미지 인식과 음성 인식 신경망을 이용한 연구를 진행해 왔으나, 상용화된 범용 신경망을 기초과학 연구에 적용한 결과 기대한 만큼의 성과는 얻을 수 없었다고 함


Ø 그 이유는 과학 연구에서 다루는 데이터의 특수성과 신경망 교육에 사용할 수 있는 데이터의 수가 제한되어 있기 때문이었으며, 따라서 오크 리지 연구소는 과학 연구를 위한 전용 신경망 개발의 필요성에 직면하게 되었음


Ø 이에 따라 오크 릿지 연구소는 타이탄을 이용해 과학 연구에 적합한 고정밀 신경망을 개발하게 되었으며, 현재 이를 활용해 물질과학 및 입자 물리학의 연구를 진행하고 있음


ž 오크 릿지 연구소가 과학 전용의 신경망 개발에 있어 수퍼 컴퓨터를 이용한 부분은 신경망 최적화 단계로, 이전까지 인간이 담당하던 작업을 AI를 이용해 실행한 것이 특징


Ø 연구진은 특정 데이터 세트에 대해 최적의 신경망이 존재한다는 전제에서 그 구조를 탐구 해 왔는데, 이 연구는 소위 하이퍼 파라미터 최적화(Hyper-Parameter Optimization, HPO)의 문제로 귀결됨


Ø 하이퍼 파라미터는 신경망의 기본 모델, 즉 신경망 각층의 종류와 그 순서, 네트워크의 층수 등을 의미하며, HPO는 이들 기본 요소를 조합하여 네트워크를 최적화하는 작업임


Ø 달리 표현하면, 대부분의 기계학습 알고리즘에서는 연구자들이 지정해 두어야 할 설정들이 많은데 이런 다양한 튜닝 옵션들을 하이퍼 파라미터라 부르며, 성능을 최적화하거나 편향과 분산 사이의 균형을 맞출 때 알고리즘을 조절하기 위해 HPO를 수행함


Ø 성능 최적화를 위해 하이퍼 파라미터를 튜닝 하는 것은 연구자들 사이에서는 예술이라 불릴 만큼 어렵고 정교한 작업이며, 어떤 데이터 세트에서 최고의 성능을 보장하는 쉽고 빠른 튜닝 작업 방법은 없는 것으로 알려져 있음


<자료> IBM

[그림 2] 하이퍼 파라미터 최적화


Ø 하이퍼 파라미터 최적화는 기존 딥러닝 소프트웨어(Caffe, Torch, Theano )를 사용하여 수작업으로 실시되며, 표준 소프트웨어를 개조하여 신경망 각 층의 종류와 순서, 네트워크 층수 등 신경망의 토폴로지(망 구성)를 결정하게 됨



Ø 그 다음으로는 생성된 신경망을 교육하고 그 성능을 검증하는데, 이 과정을 여러 번 반복하여 최적의 신경망의 형태를 얻게 되며, 이 과정은 연구자가 경험과 감에 전적으로 의존하여 진행되기 때문에 통상 새로운 신경망을 생성하는 데 몇 달씩 소요되기도 함


Ø 그런데 오크 릿지 연구소는 이 튜닝 작업을 AI로 설계하고 이를 수퍼 컴퓨터로 실행함으로써 큰 ​​성과를 올렸는데, 즉 특정 연구에 최적화 된 신경망을 연구자의 수작업이 아니라 AI로 생성시킨 것


Ø 이 방식을 통해 오크 릿지 연구소는 과학연구 전용 신경망을 단 몇 시간 만에 생성하는 데 성공했으며, 이렇게 AI가 만든 신경망이 현재 중성미립자(Neutrino) 연구에 크게 기여하고 있다고 함


ž 오크 릿지 연구소가 신경망 생성에 이용한 AI MENNDL(Multinode Evolutionary Neural Networks for Deep Learning)이라 부르는데, 생물이 진화하는 방식을 모방한 것이라고 함


Ø 사람이 HPO를 하는 것과 마찬가지로, MENNDL 우선 특정 데이터 세트, 가령 중성미립자 실험 데이터의 처리에 특화된 신경망을 생성한 다음 신경망을 교육시키고 그 성능을 평가하며, 그 평가 결과에 따라 신경망 구조를 변화시킴으로써 성능 향상을 도모함


Ø 이 과정을 반복하여 고급 신경망을 생성하게 되는데, 이 기법은 생물의 DNA가 배합과 변이를 반복하며 진화하는 방식을 모방하고 있기 때문에 진화적 알고리즘(Evolutionary Algorithm)이라 불림


<자료> Oak Ridge National Laboratory


[그림 3] MENNDL의 진화적 알고리즘


Ø MENNDL은 생성된 신경망의 교육과 성능 평가를 타이탄 수퍼 컴퓨터의 노드를 이용해 수행하는데, 마스터(master) 노드에서 진화의 프로세스를 실행해 신경망을 생성하면, 워커(worker) 노드는 생성된 네트워크를 교육하고 그 성능을 평가하게 됨


Ø 딥러닝 알고리즘을 포함하고 있는 수정 가능한 소프트웨어 프레임워크로는 카페(caffe) 를 사용하여 워커 노드에서 대규모 병렬 실행을 하며, 마스터 노드와 워커 노드 사이의 통신은 Message Passing Interface라는 프로토콜을 사용하고 있음


ž MENNDL을 활용하고 있는 것은 오크 릿지 연구소뿐 만이 아니며, 현재 여러 연구기관에서 의료 연구나 우주 탄생 연구 등에 적합한 신경망 생성에 활용하고 있음


Ø 소아암 연구로 유명한 세인트 주드 소아 병원(St. Jude Children 's Research Hospital)MENNDL을 이용해 생성한 신경망을 의료 연구에 사용하고 있는데, 3D 전자 현미경으로 촬영한 이미지에서 미토콘드리아를 식별하는 신경망을 생성하였음


Ø 미토콘드리아는 발견할 수 있기는 하지만 존재하는 위치가 다양하며 모양과 크기가 달라 사람이 식별하기는 어렵기 때문에, 세인트 주드 병원은 MENNDL을 이용해 미토콘드리아를 식별하기 위한 의료 전용 신경망을 생성한 것임


Ø 페르미 국립 가속기 연구소(Fermi National Accelerator Laboratory) 역시 MENNDL을 이용해 중성미립자 검출을 위한 전용 신경망을 생성하였음


<자료> Fermi National Accelerator Laboratory


[그림 4] 페르미 연구소의 뉴트리노 관측기기


Ø 중성미립자는 입자 중에서 페르미온(Fermion)으로 분류되면 질량은 매우 작고 다른 입자와 상호 작용이 거의 없으며 투과성이 높아서 감지해 내기가 매우 어려움


Ø 중성미립자 연구는 초기 우주의 규명과 물질 구조의 규명으로 이어질 것으로 기대되어 각국에서 경쟁적으로 연구가 진행되고 있는 분야임


Ø 페르미 연구소는 관측 장치를 개발해 중성미립자를 대량으로 생성한 후 그 상호작용을 연구하고 있는데, 중성미립자 검출에 특화된 구조를 가진 신경망을 이용하고 있음


Ø 신경망은 관측 사진을 분석해 중성미립자가 장치 내 어디에서 상호작용을 일으킨 것인지를 정확히 파악하는데, 사진에는 다른 입자들이 일으킨 상호작용도 무수히 기록되기 때문에 일반적인 신경망을 통해 중성미립자를 골라 내는 것은 매우 어려운 일이었음


Ø 그러나 MENNDL을 통해 전용 신경망을 만들 수 있게 됨에 따라, 아주 드물게 발생하는 중성미립자의 상호 작용을 정밀하게 식별할 수 있게 된 것임


Ø 페르미 연구소에서는 MENNDL 50만 종류의 신경망을 생성하고 이를 교육한 후 성능을 평가했는데, 교육 데이터로 중성미립자의 상호작용을 기록한 이미지 80만 장을 사용했으며, 평가를 통해 가장 판정이 정확한 신경망을 선정해 연구에 활용하고 있음


Ø 이러한 일련의 과정은 오크 릿지 연구소의 경우와 마찬가지로 타이탄의 18,688개 노드에서 병렬로 실행되었는데, 과학 전용 신경망의 개발과 이를 이용한 과학 연구는 AI 수퍼 컴퓨터의 도입으로 비로소 가능해졌다고도 볼 수 있음


ž 한편 특정 용도의 신경망을 AI로 생성하는 것이 수퍼 컴퓨터 이용이 가능한 대형 연구소에서만 가능한 것은 아니며 일반 기업도 가능해졌는데 여기에는 구글이 기여한 바가 큼


Ø 구글은 이미 AI를 이용해 고급 기계학습 알고리즘을 생성하는 오토(Auto)ML 기술을 사내 에서 자체적으로 이용하고 있었는데, 최근 이 기술을 클라우드 오토ML이라는 클라우드 서비스 형태로 공개하였음


Ø 오크 릿지 연구소의 전용 AI 개발은 세계 최고급의 수퍼 컴퓨터가 있기에 가능한 측면이 있었고, 그러한 고도의 컴퓨팅 자원을 보통의 기업이 갖추기는 현실적으로 어려운 것인데, 구글이 클라우드 오토ML을 공개함에 따라 전용 AI 개발에 대한 접근성이 높아진 것임


Ø 구글이 오토ML을 개발하고 또 공개한 이유는 오크 릿지 연구소의 경우와 동일한데, 일반 AI가 다양한 기능이 있기는 하지만 고급 판정 능력이 필요한 특정 업무에는 사용할 수 없어 전용 AI를 개발해야 하며, 이 작업을 할 수 있는 AI 연구자는 극소수이기 때문


Ø 아마존이나 마이크로소프트와 마찬가지로도 이미 구글은 클라우드 ML 엔진이라는 서비스를 통해 일반 AI를 클라우드로 제공하고 있었으며, 이 서비스를 이용하는 기업들은 구글이 제공하는 클라우드 비전 API를 통해 이미지 인식 처리를 실행할 수 있음


Ø 클라우드 비전 API를 이용하며 쉽게 사진을 분류할 수 있는데, 가령 하늘의 구름 사진을 입력하면 시스템은 skycloud라고 정확히 분석 결과를 보여주며, 인물 사진을 입력하면 사람의 얼굴 형태임을 인지하고 그 표정을 분류하는 기능도 제공하고 있음


Ø 그러나 기상 전문가들에게는 이러한 클라우드 비전 API를 이용한 이미지 판정 기능이 충분하지 않은데, skycloud 정도만을 판정하는 기능으로는 권운(cirrus), 권적운(Cumulus humilis) 등과 같이 구름의 종류를 판정할 수 없기 때문


<자료> Gigazine


[그림 5] 기상 전용 AI의 구름 유형 식별


Ø 따라서 구름의 종류를 판별 할 수 있는 기계학습 알고리즘을 개발하는 것이 요구되지만, 이 작업을 할 수 있는 연구자의 수는 많지 않으며 개발 작업에도 많은 기간이 소요되는 문제점이 있었으며, 이러한 수요에 부응해 구글이 내놓은 것이 클라우드 오토ML


Ø 클라우드 오토ML을 이용하면 AI가 연구자 대신 전용 AI를 짧은 시간 안에 개발해 주기 때문에, 기상 전문가들은 구름의 종류를 판정 할 수 있는 기계학습 알고리즘을 클라우드 오토ML을 이용해 자동으로 생성할 수 있음


ž 구글에 따르면 클라우드 오토ML로 생성한 알고리즘의 인식률은 일반적인 신경망보다 정확도가 높아 활용가치가 더 높으며, 이미 다양한 분야에서 성공 사례가 나오고 있음


Ø 오토ML을 이용하면 우선 신경망 개발 기간을 크게 단축 할 수 있는 것이 장점으로, 파일럿 모델이라면 몇 분 안에 가능하고 프로덕션 모델이라도 하루 정도면 개발이 가능한데, 이렇게 금세 만든 신경망이라도 인식률은 기존 일반 AI보다 높다고 함


Ø 구글은 클라우드 오토ML을 비즈니스에 응용한 사례도 공개하고 있는데, 패션 브랜드인 어번 아웃피터(Urban Outfitters)는 상품에 태그를 붙이는 과정을 클라우드 오토ML 서비스를 이용해 자동화하고 있음



Ø 어번 아웃피터는 상품에 부여된 태그를 키 값으로 사용해 소비자들에게 제품을 추천하고 있으며, 상품 검색과 제품 필터링에서도 태그가 사용하는데, 이 태깅 작업에 클라우드 오토ML 을 이용해 상품 이미지를 분석하고 제품의 특징량을 추출하고 있음


Ø 가령 옷을 분류할 때 클라우드 오토ML로 만든 알고리즘은 가슴 부위의 형태에 따라 상품을 V-, 스쿱(Scoop) , 크루(Crew) 등으로 판정하는데, 이는 알고리즘이 디자인 패턴과 목선 등을 키 값으로 태그를 생성할 수 있기 때문


<자료> Google Cloud Platform

[그림 6] 어번 아웃피터의 패션 전용 AI


Ø 동물의 생태를 보호하는 활동을 전개하고 있는 국제 환경보호단체 Zoological Society of London(ZSL) 역시 클라우드 오토ML을 적극 활용하고 있음


Ø 이 단체는 동물의 생태를 이해하기 위해 서식지에 카메라를 설치하고 동물의 행동을 관찰하고 있는데, 범용 알고리즘이 사진을 보고 동물의 종류를 정확히 판정할 수 없기 때문에 사람이 이 과정에 관여하다 보니 태기 작업에 통상 9개월이 소요되었음


Ø 9개월이 지나고 나면 이미 야생동물의 이동이 크게 이루어지고 난 다음이기 때문에 보호 전략을 세워봐야 무용지물인 경우가 많았고, 밀렵꾼에 대한 대응도 뒷북이기 일쑤였는데, ZSL은 이 과정을 클라우드 오토ML을 이용해 자동화함으로써 문제를 해결하였음


Ø 9개월이 걸리던 태깅 작업을 순식간에, 또한 정확하게 처리할 수 있게 됨에 따라 ZSL은은 효과적인 동물보호 활동을 되었으며, 운영 비용 또한 크게 낮출 수 있게 되었는데, 단체 내에 AI 전문가 없이도 클라우드 오토ML 이용을 통해 이 모든 것이 가능하게 된 것임



ž AI를 만드는 AI의 이용 접근성이 높아짐에 따라 올해는 특정 업무 전용의 고급 AI 개발이 급증할 것으로 예상되며, AI의 개발의 대중화로 획기적인 AI가 출현할 가능성이 높음


Ø 에릭 레이먼드는 1997성당과 시장이란 글을 통해 중세시대 소수 성직자들이 지식을 독점한 것처럼 소수의 프로그래머들 소스코드를 독점해 프로그램을 개발하는 데서 벗어나 시장처럼 여러 사람이 모여 오픈소스로 공동 개발하는 것이 더 우월함을 주장한 바 있음


<자료> Network World

[그림 7] AI의 민주화


Ø 구글은 클라우드 오토ML 서비스를 공개하며 AI의 민주화를 기치로 내걸었는데, 여기에는 누구나 고도의 AI를 용이하게 개발할 수 있는 환경을 제공함으로써 소수가 개발할 때보다 훨씬 획기적인 AI가 개발되는 환경을 조성하겠다는 의미가 내포되어 있음


Ø 물론 구글의 클라우드 오토ML 서비스는 이제 막 시작된 것이고, 현재는 이미지 인식(Convolutional Neural Network) 관련 AI만 개발할 수 있는 한계가 있어 클라우드 오토ML을 통해 만든 신경망이 필요한 수준의 기능을 제공해주지 못할 수 있음


Ø 그러나 향후에는 음성 인식(Recurrent Neural Network) 관련 AI를 개발할 수 있는 기능도 제공될 것으로 예상되며, AI를 개발하는 AI의 기술이 발전할수록 클라우드 오토ML로 생성하는 신경망은 보다 고도화되며 동시에 보다 만들기 쉬워질 것임


Ø 그 시점이 도래한다면 AI의 민주화라는 구글의 비전이 현실화될 수 있을 것이며, 현재의 모바일 앱 개발처럼 수 많은 사람이 AI의 개발과 교육에 직접 참여하고 협업하는 과정에서 AI는 질적 도약을 이뤄낼 수 있을 것임


Ø 누구나 자신에게 필요한 AI를 누구나 개발할 수 있는 환경이 도래함에 따라 올해는 업무에 특화된 AI 알고리즘 개발이 확산될 것으로 예상되며, 더 나은 AI가 개발되고 확산되는 과정을 통해 인공지능은 우리 삶에 보다 급격히 접목되어 나갈 수 있을 것임

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1823호(2017. 11. 22. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

현실 같은 가짜를 상상으로 만들어 내는 새로운 인공지능 ‘GAN’.pdf



[ 요 약 ]


엔비디아의 연구팀은 신경망이 유명 연예인(celebrity, 셀럽)의 이미지를 생성하는 기술을 공개했는데생성된 이미지는 실제 인물에 기반을 둔 것이 아니라 인공지능(AI)이 유명인의 개념을 이해하고 상상으로 그린 ​​것이며유명인 이외에도 모든 객체의 개념을 이해한 후 사람의 개입 없이 AI가 실제와 똑같이 그려낼 수 있음을 보여주었음생성적 대립쌍 신경망(Generative Adversarial Network, GAN)이라 불리는 이 기술은 2014년 처음 등장한 이래 가장 주목 받는 AI 연구 주제로 부상하였음



[ 본 문 ] 


ž 최근 인공지능(AI) 컴퓨팅 분야 연구에 적극 나서고 있는 엔비디아(Nvidia)GTC 유럽 2017 컨퍼런스에서 딥러닝 기반 응용프로그램 빈센트(Vincent) AI의 공개 시연을 진행


Ø 빈센트 AI는 이용자가 스타일러스 입력 펜을 사용해 간단히 스케치한 그림을 실시간으로 유화나 네온 색상의 팝아트 등 7가지 예술작품 스타일로 변환시켜 주는 응용프로그램으로 캠브리지 컨설턴트(Cambridge Consultants)라는 기업이 엔비디아 기술을 이용해 제작한 것임


<자료> NVIDA


[그림 1] 빈센트 AI로 변환시킨 스케치


Ø 엔비디아의 젠슨 황 CEO는 기조연설 도중 무대에서 내려와 스타일러스를 직접 들고 엔비디아 로고와 사람의 얼굴을 그렸으며, 이것이 실시간으로 피카소 풍의 그림으로 변환되자 컨퍼런스에 참석한 청중들의 박수가 터져 나왔음.


Ø 캠브리지 컨설턴트의 AI 연구소인 디지털 그린하우스(Digital Greenhouse)에서 5명으로 구성된 연구팀은 두 달 만에 빈센트 AI의 데모를 구현할 수 있었는데, 이번 데모는 엔비디아의 딥러닝 전용 수퍼컴퓨터인 DGX 시스템에서 트레이닝을 거쳐 구현되었음


Ø 기존의 딥러닝 알고리즘이 방대한 양의 데이터를 소화할 수 있게 됨으로써 놀라운 성과를 달성했다며, 빈센트 AI에 적용된 인공지능 기법은 두 개의 신경망을 이용해 이전에 비해 훨씬 더 적은 표본으로도 응용프로그램을 생성할 수 있었다는 점에서 주목받고 있음


Ø 엔비디아 측에 따르면, 알파고의 등장에 많은 바둑 기사들이 호응을 보인 것처럼 의외로 많은 예술가들이 빈센트 AI 에 상당한 호감을 보이고 있으며, 빈센트 AI를 통해 예술이 무엇인지, 예술에 대한 자신들의 지식이 어느 정도인지 알게 될 것이라 기대하고 있다고 함


ž 빈센트 AI의 놀라운 이미지 전환 기술 뒤에는 정밀한 튜닝 작업을 거친 GAN(Generative Adversarial Network), 생성적 대립쌍 신경망이라는 최신 AI 기술이 자리하고 있음


Ø 비영리 인공지능 연구단체인 오픈AI의 컴퓨터 과학자인 이언 굿펠로우가 창안한 (GAN) 기술은 최근 인공지능 기반 이미지 전환기술로 크게 각광받고 있으며, 굿펠로우는 연구 논문 발표 후 구글의 인공지능 연구부서인 구글 브레인으로 자리를 옮겨 연구를 지속하고 있음


Ø 이언 굿펠로우에 의해 2014년에 처음 등장한 이 기법과 관련한 논문 수가 기하급수적으로 증가해서 최근에는 190편 이상이 학계에 보고되고 있는데, 페이스북의 AI 연구를 이끌고 있는 얀 르쿤 교수는 갠(GAN)을 가장 중요한 기술로 꼽고 있음


Ø 갠 신경망은 대립쌍을 이루는(Adversarial) 두 개의 네트워크를 만들고, 상호 대립 과정에서 훈련 목표를 자동으로 생성하도록 학습시키는 모델임


Ø 통상 기계학습이 사람이 태그를 달아주는 방식으로 학습결과가 맞았는지 확인해주는 데 반해 갠 기법은 사람의 개입 없이 컴퓨터가 스스로 목표 이미지와 비교해서 생성한 이미지를 반복해서 평가하고 수정하는 과정 속에서 데이터 자체에서 지식을 얻는 비지도 학습형 알고리즘임



Ø 최근 이미지 구별이나 음성 인식 등에 활용되는 인공지능 기술인 CNN이나 RNN지도 학습형 알고리즘으로 이미지나 음성을 구별하고 인식할 뿐 만들어 내지는 못하는데, GAN은 생성 모델을 통해 직접 이미지와 음성을 만들어 낸다는 것이 큰 차이점임


Ø 엔비디아의 연구팀이 개발한 기술 역시 GAN을 이용한 것으로, 엔비디아는 논문을 통해 신경망이 유명인(celebrity, 셀럽)의 이미지를 자동으로 생성하는 기술을 공개했는데, 이 이미지는 실제 사람이 아닌 AI유명인이라는 개념을 이해하고 상상으로 생성해 낸 것임


<자료> Karras et al.


[그림 2] GAN이 생성한 유명인 이미지


Ø GAN으로 그린 가상의 유명인은 어디선가 본 듯한 것처럼 보이지만 실존 인물은 아니며, 구글에서 이미지 검색을 해도 해당 인물이 발견되지는 않는데, 한마디로 GAN은 진짜 같은 가짜를 생성해 내는 기술이라고도 할 수 있음


Ø 엔비디아가 발표한 논문은 GAN이 유명 연예인 외에도 침실, 화분, , 소파, 버스 등의 객체를 AI가 개념만 듣고 현실과 똑같이 그려낼 수 있음을 보여주고 있음


ž 생성적 대립쌍이라는 명칭이 붙은 이유는, GAN이 서로 경쟁하는 두 개의 신경망(dueling neural network) 구조를 통해 성능을 개선하고 딥러닝 모델을 진화시키기 때문


Ø GAN의 구조는 일반적으로 감식자(Discriminator)생성자(Generator)라는 두 개 층의 신경망으로 구성되는데, 양 측이 서로 충돌하면서 발생하는 차이점을 수정해 나가며 궁극의 균형점, 즉 진짜 같은 가짜의 생성에 이르게 됨



Ø 생성 네트워크는 진짜와 똑 같은 가짜 이미지를 생성하는 역할을 담당하는데, 생성자에 노이즈(랜덤 신호)가 입력되면 이를 토대로 가짜 이미지를 생성함


Ø 감식자는 입력된 데이터가 진짜인지 가짜인지를 판정하는데, 생성자가 만들어 낸 가짜(Fake) 이미지와 샘플 데이터세트에서 추출된 실제(Real) 이미지가 감식자에 입력되면 Fake 또는 Real 여부를 판정하게 됨


Ø 이 방식은 게임이론 중 내쉬 균형(Nash Equilibrium), 즉 합리적 판단을 하는 상호 간의 게임이론에 따라 수학적으로 균형점을 찾는다는 이론이 적용된 것임


Ø 한 마디로 GAN은 생성자와 감식자가 대치하며, 매우 성공적인 가짜를 생성해내는 인공지능 기술이라 정의할 수 있음


<자료> Anton Karazeev


[그림 3] 대립쌍을 이루는 GAN의 작동 프로세스


ž GAN의 개념을 주창한 이언 굿펠로우는 대립쌍을 설명하면서 생성자와 감식자의 관계를 위조 지폐범과 경찰의 대결로 비유하였음


Ø 화폐 위조범(생성자 G)이 새로운 위폐를 만들어내면 경찰이나 은행원(감식자 D)은 이를 간파해야 하고, 위조범들이 이를 피하기 위해 더 그럴 듯한 위조 지폐를 만들면 경찰관들도 동시에 감식 기술을 향상시키는데, 이 과정을 통해 위조 화폐가 더욱 정교해진다는 것


Ø 즉 위폐범의 위조 기술과 경찰의 감식 기술이 서로를 자극하면서 발전을 거듭하면, 결국 위조화폐는 진짜 화폐와 같은 수준의 내쉬 균형점에 이르게 된다는 것으로, 현실에서는 감식자가 위폐범을 이겨야 하나 GAN에서는 위폐범의 승리가 목표임


Ø 이언 굿펠로우는 대립쌍을 설명하면서 수학 같이 명확한 답이 없지만 확률적으로 목표와 근사한 지를 끊임없이 확인하면서 이미지를 변환해 가면 결국엔 위폐일 확률과 진짜일 화폐일 확률이 각기 0.5가 된다고 표현하였음


Ø 인간과 AI가 대결과 공존을 해야 하는 시대에 인간이 우위를 점할 수 있는 영역으로 흔히 창의성과 예술 분야가 거론되지만, 알파고 등장에서 보듯 현실은 창의성에서도 AI의 우월성이 드러나는데, 위폐범의 승리를 목표로 하는 GAN 같은 기술의 등장이 그 원인이라 할 수 있음


ž 이처럼 GAN은 매우 성공적인 가짜를 생성할 수 있으나 기술적으로 몇 가지 과제가 있었는데, 엔비디아는 특수 구조를 개발하여 과제를 해결해 가고 있음


Ø GAN의 과제는 알고리즘의 교육에 장시간 연산이 필요하다는 점과 알고리즘의 작동이 불안정하다는 점이었는데, 엔비디아는 서서히 이미지의 해상도를 높여 나가는 구조의 네트워크를 개발하여 문제를 해결하였음



Ø 엔비디아가 개발한 GAN의 특징은 학습 초기 단계에서는 낮은 해상도(4×4)의 네트워크를 사용하고, 학습이 진행되면서 점차 해상도를 올려 최종적으로 고해상도(1024×1024)의 네트워크를 사용해 선명한 이미지를 생성한다는 점

Ø 엔비디아의 GAN이 순차적으로 생성한 이미지와 생성에 소요된 시간을 살펴보면, GAN에 학습을 시작한 지 4시간 33분이 경과한 시점에 저해상도(16×16)의 이미지가 생성되어 사람으로 보이는 듯한 형상이 나타났음


Ø 1 6시간이 경과한 시점에서 나타난 중간 해상도(64×64)의 이미지에서는 얼굴 윤곽이 뚜렷해졌으며, 5 12시간이 경과한 시점에 나타난 고해상도(256×256) 이미지에서는 인물이 부드럽게 그려져 있지만 세부적으로 보면 군데군데 일그러진 곳이 있음


Ø 19 4시간이 경과한 시점에 나타난 초고해상도(1024×1024) 이미지에서는 리얼한 인물이 완성되는데, 이처럼 엔비디아의 GAN은 감식자(Discriminator)의 스킬을 검증하면서 서서히 해상도를 올려나가는 방식을 통해 알고리즘 교육 시간을 약 20일로 단축하였음


<자료> Karras et al.


[그림 4] 점증적으로 해상도를 높여 나가는 엔비디아의 GAN


ž 엔비디아가 GAN의 성능을 개선했지만, 고해상도의 이미지를 생성하려면 대규모 컴퓨팅 리소스를 필요로 하는 등 아직 연구를 통해 개선해야 할 것들이 많이 남아 있음


Ø GAN에서 선명한 이미지를 생성하기 위해서는 대규모 컴퓨팅 자원이 필요한데, 엔비디아의 경우 이 연구를 위해 NVIDIA Tesla P100 GPU(4.7 TFLOPS)를 사용하였음


Ø GAN의 알고리즘 학습에는 약 20일 정도가 걸렸는데, 많이 개선된 것이지만 고해상도의 이미지를 생성하려면 여전히 많은 처리 시간이 필요하며, 결국 완벽한 가짜 이미지 생성에 아직까지는 많은 비용이 소요됨을 의미함


Ø 또한 GAN으로 그려낼 수 있는 대상은 GAN이 학습을 마친 분야로 제한되기 때문에 현재는 유명 연예인 등 일부에 한정되는데, GAN의 교육 시간을 상당히 단축시키거나 혹은 폭넓은 분야를 커버하게 하려면 추가 연구가 필요한 상황임


ž GAN은 양날의 검이 될 위험성이 존재하지만, 현재 AI 기술 개발의 가장 큰 걸림돌을 해결할 단서가 될 수 있다는 점에서 AI 분야의 큰 돌파구가 될 수 있는 연구 주제임


Ø GAN은 현재 딥러닝이 안고 있는 많은 문제를 해결할 수 있는 비장의 카드가 될 가능성이 있는데, 비지도 학습(Unsupervised Learning)과 라벨이 없는 데이터(태그 없는 교육 자료) 분야의 연구를 크게 진전시킬 단서가 될 것으로 전망되고 있기 때문


Ø 이는 현재 AI 개발의 가장 큰 걸림돌이 되고 있는 문제, 즉 알고리즘을 교육하기 위해 대량의 태그 데이터가 필요하다는 문제의 해결책이 될 수 있음을 의미하며 이것이 개발자들이 GAN에 주목하는 가장 큰 이유임


Ø 반면 GAN에 대한 우려도 그만큼 크게 대두되고 있는데, GAN이 가상으로 그려낸 이미지는 사진 촬영을 한 연예인이라 해도 의심의 여지가 없으며, 실제와 똑 같은 가짜 앞에서 양자의 진위를 판정할 수 있는 사람은 아무도 없음


Ø 소셜 미디어에서 가짜 뉴스가 문제가 되고 있지만 GAN의 등장으로 이제는 가짜 사진이 사태를 더욱 복잡하게 할 가능성이 커졌으며, 인스타그램에 올라오는 사진들 역시 GAN이 만들어 낼 시대가 도래하고 있음


Ø 전문가들이라고 이런 문제를 비껴나갈 수 있는 것은 아니어서, 천문학자들은 이제 우주의 이미지를 직접 우주 공간에 나가서 사진 찍듯이 그려내고 있으며, 화산 폭발 장면을 실감나는 사진으로 표현하고 있음


Ø 또한 인체의 DNA가 어떻게 작동하는지 또 단백질이 어떻게 반응하는지를 직접 촬영한 사진처럼 표현하기도 하는데, 그럴듯한 이미지들과 함께 이런저런 학술이론을 제시하면 한마디 반박조차 못하고 감쪽같이 설득 당할 수밖에 없음


Ø GAN 의 등장은 현실과 가상현실 사이에서 진위의 구분이 무의미해지는 시대의 도래를 시사하며, 양날의 검이 될 수 있는 GAN의 활용 범위와 방안을 놓고 AI 개발자 커뮤니티뿐 아니라 일반인 사이에서도 다양한 논쟁이 벌어질 것으로 보임

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1818호(2017. 10. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 하드웨어 신제품 발표, 제품 차별화 요소는 ‘AI 최적화’.pdf



[ 요 약 ]


구글이 작년에 이어 메이드 바이 구글(Made by Google) 행사를 통해 신제품을 대거 공개했는데올해 신제품 발표회의 테마는 하드웨어와 소프트웨어그 중에서도 인공지능(AI)의 통합이었음구글은 이번 신제품에 최신 AI 기술의 성과를 광범위하게 적용하며향후 AI가 기기 차별화의 결정적 요인이 될 것으로 바라보고 있음을 드러냈음스마트 기기의 하드웨어 차별성이 점차 엷어지는 가운데소프트웨어 최적화를 넘어선 AI 최적화가 제품 경쟁의 새로운 화두가 될 것으로 예상됨



[ 본 문 ]


ž 작년 10메이드 바이 구글(Made by Google) 하드웨어 신제품 5개를 일거에 출시했던 구글이 1년 만에 다시 신제품을 대거 발표하였음


Ø 이번에 발표한 신제품은 작년에 출시된 제품의 업그레이드 버전도 있지만, 구글로서는 새롭게 시도하는 제품들도 포함되어 있음


<자료> Google

[그림 1] Made by Google 2017


Ø 작년에 선보인 구글 자체 스마트폰 픽셀(Pixel)의 후속 버전으로 픽셀 2가 발표됐으며, 역시 작년에 선보인 인공지능(AI) 스피커 구글 홈(Google Home)은 이번에 구글홈 미니(Mini)구글홈 맥스(max)로 라인업이 확대되었음


Ø 올해 새롭게 선보인 제품으로는 액션 카메라인 구글 클립스(Google Clips)와 음악 재생 및 외국어 번역에 사용하는 블루투스 헤드셋 구글 픽셀 버즈(Google Pixel Buds), 그리고 크롬북의 상위 버전이라 할 수 있는 노트북 픽셀북(PIxelbook)이 있음


Ø 작년 10월에 이어 1년 만에 다시 하드웨어 발표회를 개최함으로써 향후 구글이 5월에 개최되는 연례 개발자 컨퍼런스 구글 I/O에 이어 10월의 신제품 발표회를 연례 행사화 할 가능성도 점쳐지고 있음


ž 이번 신제품 발표회의 테마는 하드웨어에 소프트웨어와 인공지능(AI)을 통합하는 것으로, 구글이 AI를 제품 차별화의 결정적 요인으로 바라보고 있음을 드러냄


Ø 구글홈 미니는 아마존의 소형 AI 스피커인 에코닷(Echo Dot)의 대항마 성격으로, 가격은 49 달러이지만 AI 가상비서 기능인 구글 어시스턴트(Google Assistant)가 탑재되어 있음


Ø 미니는 도넛 크기의 타원형 형상으로 상단에 LED가 탑재되어 기기 상태를 표시해주는데, 에코닷과 마찬가지로 가정 내 각 방에 하나씩 놓고 사용하는 것을 전제로 디자인 한 것으로 보이며, 구글이 집 전체 공간을 AI로 채우고 싶어함을 유추할 수 있음


Ø 맥스는 음질을 중요한 모델인 동시에 구글이 400 달러인 가격에 걸맞게 구글홈보다 20배 정도 성능이 강력하다고 소개할 정도로 AI 기반의 사운드 재생 기능이 뛰어난 기기임


Ø 2개의 4.5인치 우퍼를 내장해 깊이 있는 사운드 재생이 가능하며, 스마트 사운드(Smart Sound) 기능을 탑재하고 있어 주변 환경과 사용자의 컨텍스트에 맞게 음악을 재생할 수 있음



<자료> Google


[그림 2] 구글홈 미니(Mini)와 맥스(Max)


Ø 구글은 스마트 사운드 기능의 예로 AI가 방의 모양을 파악해 그에 적합한 사운드를 재생하거나, 아침 시간에는 볼륨을 좀 낮추어 재생하고 식기 세척기가 가동 중이어서 시끄러울 때는 볼륨을 높여 음악을 재생하는 것 등이 가능하다고 설명하고 있음


Ø 픽셀 2 스마트폰에는 지난 5월 구글 I/O에서 소개한 구글 렌즈(Google Lens) 기능이 처음으로 적용되었는데, 구글 렌즈는 구글 어시스턴트를 기반으로 렌즈에 비친 사물에 대한 정보를 불러들인 후 사진에 담긴 물체나 글자를 인식해 알려주는 AI 카메라임


Ø 픽셀북은 노트북과 태블릿 PC를 결합한 것으로 역시 구글 어시스턴트가 적용되어 있으며, 가령 픽셀북 펜을 이용해 디스플레이 화면 안의 특정 부분에 원을 그리면 구글 검색 엔진이 그 원안의 물체를 인식하고 관련된 정보를 검색해 줌


ž 구글이 AI를 신제품의 차별화 요소로 삼는 이유는, AI가 비단 구글의 하드웨어 신제품뿐 아니라 스마트 홈 생태계의 허브 기능을 담당할 것으로 보기 때문임


Ø 구글홈의 핵심 기능인 구글 어시스턴트는 스마트폰(안드로이드와 iOS), 스마트 워치(안드로이드 웨어), 텔레비전(안드로이드 TV) 등과도 연계할 수 있으며, 가상 비서의 인터페이스는 급속하게 음성으로 전환하고 있음


Ø 구글 어시스턴트는 생태계를 급속히 확장하고 있는데, 현재 스마트 홈 관련 기업 네스트(Nest), 필립스(Philips), 스마트씽스(SmartThings) 등이 내놓은 1천여 제품과도 연계가 가능함


Ø 특히 알파벳 산하의 네스트와 구글홈의 연계가 더욱 강화되고 있는데, 이번 기능 업그레이드로 네스트의 보안 카메라인 네스트 캠(Nest Cam)을 구글홈에서 조작할 수 있게 되었음


<자료> Google


[그림 3] 구글홈과 네스트 캠의 연계


Ø 이로써 가령 현관에서 무슨 소리가 나는 것 같을 때 구글홈에게 현관 앞 상황을 TV로 보여줘라고 명령하면, 구글홈이 네스트 캠에 찍힌 영상을 TV로 디스플레이 하는 것이 가능해졌음


Ø 또한 네스트의 스마트 초인종인 네스트 헬로(Nest Hello)도 구글홈에서 조작할 수 있게 되었는데, 네스트 헬로는 얼굴 인식 기능으로 방문자를 식별할 수 있는 친숙한 얼굴(Familiar Faces)라는 기능을 탑재하고 있음


Ø 따라서 누군가 초인종을 누르면 네스트 헬로가 그 인물을 인식해 구글홈에 알려주고, 구글홈이 이용자에게 방문자의 이름을 알려주는 것이 가능하며, 이런 기능을 활용해 네스트와 연계한 주택의 보안을 구글홈에서 집중 관리하는 것이 가능함


Ø 구글 어시스턴트가 허브가 되는 스마트 홈은 개인화 서비스도 가능한데, 보이스 매치(Voice Match) 기능을 통해 동시에 여섯 명의 목소리를 구분해 알아 듣고 개별 대응이 가능하기 때문


Ø 개인 맞춤형 서비스의 예로 이번 신제품 발표회에서는 에브리데이 루틴(Everyday Routines) 기능이 소개되었는데, 이는 한 단어만 듣고 그 사람과 관련된 여러 가지 명령을 동시에 실행하는 것으로 구글의 지향점을 잘 보여주고 있음


Ø 가령 식구들 중 회사로 출근을 해야 하는 사람이 있을 경우, 이 사람이 아침에 일어나 좋은 아침이라고 한 마디만 하면, 구글홈이 그의 하루 일정을 확인하고 일정에 따른 이동 경로의 도로 정체 정보를 알려주며 주요 뉴스를 읽어주도록 설정할 수 있음


Ø 또한 아이들이 구글홈에게 우리 게임하자라고 말을 할 경우, 아이들의 목소리를 인식하여 아이들이 안전하게 즐길 수 있는 게임을 실행하도록 설정할 수도 있음


ž 구글은 AI가 스마트 홈의 허브로 선택될 수 있도록 인간 친화적인 특성을 띠게 하는 데도 공을 들였는데, 여기에는 딥마인드(DeepMind)의 새로운 음성합성 기술이 기여를 하였음


Ø 구글홈의 음성 발화는 고급 AI가 적용되어 매우 매끄럽게 들리는데, 여기에는 딥마인드가 지난해 발표한 새로운 음성 합성(Speech Synthesis) 기술이 관여되어 있음


Ø 딥마인드가 새롭게 발표한 웨이브넷(WaveNet)은 심층신경망(Deep Neural Network)을 이용해 기계음이 인간에 가깝게 자연스럽게 발성할 수 있게 해주는 음성 합성 기술임


Ø 일반적으로 음성 합성은 말을 아주 작은 단위로 나눈 다음 필요한 음운, 음소, 단어에 맞게 조립하는 음성 연결 합성(Concatenative TTS)이라는 기법 사용하는데, 이 때문에 기계음은 말 그대로 기계적이고 어색한 톤으로 발화가 됨


Ø 딥마인드는 기존의 방식과 전혀 다른 접근 방식을 취했는데, 웨이브넷은 많은 수의 음성 샘플을 배우고 음성 파형(Audio Waveform)을 잘게 세분화 해 분석함으로써 음성 만으로는 알 수 없었던 숨 고르기나 단어 혹은 문장끼리 합쳐지는 방식까지 이해가 가능하게 하였음


Ø 구체적으로 살펴 보면 컨볼루셔널 신경망(Convolutional Neural Network, CNN)이 발화의 구성을 파악하여 어떤 음색(Tone) 후에 어떤 음색이 이어지는지, 어떤 파형(Waveform)이 자연스러운지 학습하게 되며, 이를 토대로 아주 부드러운 음성을 합성하게 됨


Ø 딥마인드는 웨이브넷이 인간의 미묘한 톤이나 억양, 말할 때의 속도 등을 그대로 재현할 수 있다고 설명했는데, 음성 연결 합성 방식이나, 인간 음성 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 기술과 블라인드 테스트를 한 결과 인간의 실제 음성에 육박하는 수준의 높은 점수로 1위를 차지했다고 함


Ø 단 작년 발표 시점에서 웨이브넷은 음성 합성을 빠르게 수행 할 수 없어 0.02 초의 오디오를 생성하는데 1 초가 필요했으나, 그 동안 알고리즘 개선을 통해 빠른 음성 합성까지 가능해졌다고 하며, 현재 1 초 길이 오디오를 50 밀리 초에 생성하므로 실시간 사용이 가능하다고 함


[1] 딥마인드 웨이브넷과 음성 합성 기술의 비교

 

Concatenative

Parametric

WaveNet

인간의 음성

미국식 영어

3.86

3.67

4.21

4.55

만다린 중국어

3.47

3.79

4.08

4.21

<자료> DeepMind


ž 하드웨어들의 주요 기능이 점차 천편일률적으로 되어 가는 상황에서, 이번 구글의 신제품 발표회는 향후 AI 최적화가 스마트 기기의 시장 성패를 가르게 될 것임을 강하게 시사


Ø 구글홈을 비롯해 이번에 구글이 발표한 제품들의 배후에는 최신 AI 기법이 광범위하게 사용되고 있는데, 이용자의 음성을 인식하는 데뿐만 아니라 음성 합성 역시 AI 없이는 매력적인 특색을 실현할 수 없음을 보여주고 있음


Ø 소프트에어 기업인 구글이 자체 하드웨어 생산에 나선 데에는 여러 가지 이유가 있겠으나, 하드웨어를 통한 차별화는 이제 한계에 다다르고 소프트웨어를 통한 차별화, 그 중에서도 AI에 의한 차별화가 제품 경쟁력의 핵심 요소가 될 것으로 판단했기 때문이라 볼 수 있음


Ø 가령 지금까지 스마트폰의 경쟁 구도는 애플의 소프트에어 최적화와 삼성전자의 하드웨어 고사양화로 요약할 수 있는데, 아이폰이 상대적으로 낮은 하드웨어 사양을 소프트웨어 최적화로 커버했다면, 갤럭시 폰은 소프트웨어의 단점을 하드웨어 혁신으로 커버하는 전략이었음


Ø 그러나 최근 들어 아이폰이나 갤럭시 폰을 비롯해 대부분의 스마트폰 사양들은 유사해지고 있는데, 구글은 이를 하드웨어 혁신의 속도가 둔화된 것, 즉 하드웨어 부문을 직접 관리하는 부담이 적어지는 신호로 받아들였을 가능성이 큼


Ø 따라서 보다 중요해지는 것은 애플과 같은 소프트웨어 최적화 역량인데, 구글은 안드로이드 OS와 하드웨어의 최적화에 덧붙여 AI 최적화를 무기로 하드웨어 비즈니스에 뛰어들려는 것으로 해석할 수 있음


Ø 하드웨어 경쟁력보다 소프트웨어 경쟁력이 압도적 이윤을 가져다 줄 수 있다는 점은 이미 애플과 삼성전자의 경쟁에서 확인된 바 있거니와, 구글은 이에 더해 AI가 제품의 차별화와 이윤을 가져다 줄 것이라 주장하는 것임


Ø 구글이 던진 AI 최적화의 화두는 스마트 디바이스 시장의 경쟁 지형을 새롭게 재편할 가능성이 크며, 디바이스 제조업체들 앞에 쉽지 않은 숙제가 던져진 셈

댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1816호(2017. 9. 29. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI 칩을 이용한 아이폰 Ⅹ 얼굴 인증 AI를 악용한 공격 대응이 관건.pdf



[ 요 약 ]


애플이 차세대 하이엔드 모델인 아이폰 ()에서 지문 인증을 빼고 얼굴 인증 기술인 페이스 ID(Face ID)를 발표하였음카메라를 향해 얼굴을 보이는 것 만으로 인증을 하는 기술은 지문 인증보다 안전성이 높고 편리한 방법으로 평가받고 있는데이번에 애플이 도입함에 따라 단번에 보급 확산이 진행될 수 있는 교두보를 마련하였음페이스 ID는 인공지능(AI)프로세서를 이용해 이미지 인식 기능을 강화했는데같은 맥락에서 AI를 악용한 고도의 공격에 대응할 것을 요구 받고 있음



[ 본 문 ]


ž 애플의 차세대 아이폰 모델 3 기종 발표회에서 가장 관심을 모은 것은 최상위 모델인 아이폰 Ⅹ(10)의 얼굴인식 기능을 이용한  페이스 ID(Face ID)였음


Ø 주 모델은 기기의 전면을 모두 수퍼 레티나 HD 디스플레이(Super Retina HD Display)로 채워 홈 버튼을 없앤 아이폰 Ⅹ(10)이었고, 아이폰 7 7 플러스의 후속 모델로는 시리즈 순서에 맞게 아이폰 88 플러스가 발표되었음



Ø 이 중 아이폰 Ⅹ은 페이스 ID(Face ID) 기능을 갖추고 있어 카메라로 얼굴을 비춰 장치 잠금 해제를 할 수 있는데, 아이폰 8과 달리 지문인식 장치를 아예 없애 애플 페이로 지불을 할 때도 기존의 터치 ID(Touch ID) 대신 페이스 ID 기능을 이용해야 함


<자료> CNET


[동영상아이폰 Ⅹ의 얼굴 인증 페이스 ID


Ø 최신 스마트폰의 추세는 전면 디스플레이를 극대화하는 것이며 아이폰 Ⅹ도 이 흐름을 수용했는데, 이렇게 하려면 홈 버튼에 담았던 지문 인식 스캐너의 위치를 옮겨야 할 필요가 있었음


Ø 발표회 전에는 터치 ID 기능을 디스플레이 안에 포함한다거나 삼성전자 갤럭시 S8처럼 스마트폰 후면으로 이동시킨다는 루머가 있었으나, 애플은 터치 ID 기능을 아예 빼는 선택을 하였음


Ø 삼성전자가 제품 매뉴얼에 얼굴 인증은 지문이나 PIN 등에 비해 안전성이 낮다고 기재함으로써 얼굴 인증을 보안이 아니라 편의성과 재미를 위해 설계한 것임을 드러낸 반면, 애플은 지문 인식 없이 페이스 ID 만으로 애플 페이를 이용하게 하여 보다 과감한 입장을 취한 것임


Ø 이는 얼굴 인식 기능이 시장에서 아직 대세가 아닌 상황에서 애플이 기술력과 자신감을 바탕으로 과감한 결단을 내린 것으로 볼 수 있는데, 대신 아이폰 8 8 플러스에는 기존 터치 ID를 그대로 유지시켜 페이스 ID에 거부감이 있는 소비자를 위한 선택지도 남겨 두었음


ž 얼굴 인증 기술은 기본적으로 이용자의 형상 변화에도 대응해야 하는 과제를 안고 있는데 이를 위해 애플은 기계학습(Machine Learning)을 이용한 이미지 비교 방식을 채택했음


Ø 페이스 ID를 사용하기 위해서는 사전에 얼굴을 등록해야 하는데, 터치 ID가 사용자의 여러 손가락 지문을 등록하거나 다른 사람의 지문을 등록할 수 있었던 것에 비해 페이스 ID는 오직 하나의 얼굴만 등록할 수 있고, 다른 얼굴을 등록하려면 이전에 등록된 얼굴을 삭제해야 함


Ø 아이폰 Ⅹ은 트루뎁스 카메라(TrueDepth Camera)라는 특수 카메라를 탑재하고 있는데, 얼굴을 등록 할 때 트루뎁스 카메라의 도트 프로젝터(Dot Projector)에서 3만 개의 점이 얼굴에 투사되고 이를 적외선 카메라(Infrared Camera)에서 읽어 들여 얼굴의 3D 맵을 생성하게 됨


<자료> iphone tricks


[그림 2] 트루뎁스 카메라의 구조()와 페이스 ID 3D 스캐닝 포인트()


Ø 이 정보들은 프로세서 내의 스토리지인 시큐어 인클레이브(Secure Enclave)에 암호화하여 저장되며, 페이스 ID 사용 시 광원 역할을 하는 플러드 일루미네이터(Flood Illuminator)에서 적외선이 투사되고 이를 적외선 카메라가 읽어 들여 등록된 얼굴 맵과 비교하여 인증을 수행함


Ø 페이스 ID는 광원으로 적외선을 사용하기 때문에 외부 빛의 조건에 관계없이 어두운 곳에서도 정확하게 얼굴을 인증할 수 있는 장점이 있음


Ø 반면, 얼굴 인증은 이용자의 상태가 변화하는 것에 대응해야 하는 과제를 안고 있는데 즉, 머리카락이나 수염이 자라거나 안경을 착용하여 등록된 얼굴 이미지와 달리 보일 경우에도 이용자가 불편하지 않게 본인 확인을 할 수 있어야 함


Ø 이 문제 해결을 위해 애플은 기계학습 기법을 이용한 이미지 비교 방식을 채택했는데, 알고리즘에 대한 기계학습을 통해 등록된 얼굴 형상이 머리와 수염을 기르고 안경을 쓰면 어떻게 천천히 변화하는지를 인식할 수 있게 하는 것임


Ø 다양한 조건을 사전에 학습시켜 둠으로써 이용자의 형상이 바뀌더라도 정밀하게 판정 할 수 있게 한 것이며, 또한 얼굴을 3D로 비교함으로써 사진을 통해서는 인증 받을 수 없게 하였음


ž 페이스 ID에 기계학습이 적용되었다는 것은 카메라의 차별적 성능이 이제 광학 센서가 아니라 인공지능(AI)에 의해 결정되고 있음을 다시 한번 보여 줌


Ø 트루뎁스 카메라는 셀카(Selfie)를 찍을 때 특수 효과를 내는 데도 사용할 수 있는데, 인물사진 조명(Portrait Lighting)이라 불리는 기능을 이용하면 스튜디오에서 촬영 할 때처럼 마치 빛을 조정한 것 같은 효과를 얻을 수 있음


Ø 자연 조명(Natural Light) 옵션을 선택하면 자연광 아래에서 촬영한 효과를, 스튜디오 조명(Studio Light) 옵션을 선택하면 밝은 조명 아래 촬영한 효과를 얻을 수 있으며, 칸투어 조명(Contour Light) 옵션은 얼굴의 요철을 돋보이게 하여 극적인 인상을 만들며, 무대 조명(Stage Light) 옵션은 배경을 검게 처리해 얼굴을 부각시킬 수 있음


<자료> Apple


[그림 3] 인물사진 조명의 다양한 옵션


Ø 트루뎁스 카메라는 스테레오 카메라여서 객체를 3D로 파악하므로 인물과 배경을 구분할 수 있고, 여기에 AI가 사람의 얼굴을 파악해 얼굴 부위에 빛을 쬐어 특수 효과를 만들어 내는 것인데, 메인 카메라에도 인물사진 조명 기능이 탑재되어 위의 옵션들을 사용할 수 있음


Ø 카메라는 전통적으로 광학 센서가 차별화 요인이었지만, 지금은 포착한 이미지를 AI를 통해 얼마나 깨끗이 처리 할 수 ​​있는지가 중요해지고 있으며, 아이폰의 카메라는 소프트웨어 결정 카메라(Software-Defined Camera)라는 소프트웨어가 성능을 좌우함



Ø 트루뎁스 카메라를 이용하면 움직이는 이모티콘인 애니모지(Animoji)를 만들어 전달할 수 있는데, 카메라는 얼굴의 50개 지점의 움직임을 파악해 이를 이모티콘 캐릭터와 매핑하는데, 가령 놀란 표정을 지으면 캐릭터도 놀라는 모양이 됨


<자료> Howtoisolve


[그림 4] 아이폰 Ⅹ의 애니모지 메시지 기능


Ø 애니모지를 이용해 영상 메시지를 보내면, 표정을 모방한 캐릭터가 음성과 함께 아이메시지(iMessage)로 상대방에게 전달되는데, 캐릭터는 고양이, 돼지, 닭 등 12개가 제공되고 있음


Ø 애니모지 외에도 트루뎁스 카메라는 스마트한 아이폰 이용을 지원하는데, 사용자의 시선을 인식해 화면을 보고 있는 등 아이폰을 사용 중이라 판단하면 슬립 모드로 전환되어 화면이 꺼지지 일이 없도록 하고 알람이나 전화벨 소리를 낮추는 등 똑똑한 도우미 역할도 수행함


Ø 이러한 신형 아이폰의 기계학습과 이미지 처리를 지원하는 것이 AI 프로세서인 A11 Bionic(바이오닉)인데, 이 프로세서는 뉴럴 엔진(Neural Engine)을 탑재하고 있으며 그. 이름에서 알 수 있듯이 AI 처리에 특화되어 있음


Ø 뉴럴 엔진은 기계학습 처리 전용 엔진으로 사람이나 물건이나 장소 등을 빠르게 파악하는 기능을 통해 페이스 ID와 애니모지의 처리를 지원하고 있는데, 이와 동시에 애플은 AR(증강현실)의 이미지 처리 속도도 이 엔진을 통해 가속화 하고 있음


ž 이처럼 AI를 기반으로 한 페이스 ID 기능에 대해 애플이 상당한 자신감을 보이고 있긴 하지만, 아무래도 인증 관련 기술이다 보니 보안 침해 가능성에 대한 우려도 제기되고 있음


Ø 페이스 ID가 확산되려면 안전성에 대한 소비자의 확신이 전제가 되어야 하는데, 애플은 얼굴 인증에 대한 공격 방법이 영화에 종종 사용되는 페이스 마스크(Face Mask)가 될 것으로 보고 이에 대한 철저한 실험을 했다고 함


Ø 페이스 마스크는 출연자의 얼굴을 3D로 카피한 후 이를 마스크로 재구성하는 것인데, 애플은 실제로 할리우드에서 페이스 마스크를 만들어 페이스 ID의 인정 정밀도를 벤치마크 하였음


Ø 여기에도 기계학습 기법이 사용되어 인간의 얼굴과 페이스 마스크를 구분하도록 알고리즘을 교육시켰다고 하는데, 이러한 나름의 연구개발 성과를 바탕으로 애플은 페이스 ID의 오인식률이 100만분의 1 이하라 자신한 것으로 보임


Ø 그러나 사진이나 마스크로는 페이스 ID가 뚫리지 않는다는 애플의 주장에 대해, 일부 보안 전문가들은 3D 촬영 기술의 발전이나 3D 프린터 기술의 발전으로 실제 얼굴과 거의 흡사한 3D 얼굴 모형을 얼마든지 만들어 낼 수 있다는 점을 간과할 수 없을 지적하고 있음


ž 실제로 최근 VR(가상현실)이나 인공지능(AI)을 이용해 3D로 얼굴을 구성하는 기술들이 발표되고 있어 얼굴 인증 메커니즘의 신뢰성을 보다 확실히 해야 할 필요성이 높아지고 있음


Ø 얼굴 인증과 관련한 흥미로운 연구 성과 발표는 작년부터 시작되었는데, 노스 캐롤라이나 대학의 연구팀은 페이스북과 인스타그램에 게재된 얼굴 사진을 3D로 재구성하는 방법을 공개했음

Virtual U Defeating Face Liveness Detection by Building Virtual



Ø 연구팀은 대상자의 얼굴 사진을 여러 장 모아 얼굴의 구조를 3D로 재구성한 뒤, 3D 구조에 피부의 색상과 질감을 더하고 다양한 표정을 추가한 다음 VR 디스플레이로 표현하였음


<자료> Department of Computer Science, University of North Carolina


[그림 5] 노스 캐롤라이나 대학 연구팀의 VR을 이용한 사진 이미지 3D 재구성 프로세스


Ø 연구 논문에 따르면 3D로 재구성한 얼굴의 VR을 얼굴 인증 시스템에 입력하고 인증에 성공했는데, 현재 스마트폰 보안에 이용되고 있는 5개 얼굴 인식 앱을 대상으로 테스트를 실시하였음


Ø 테스트 결과5개의 앱 중 하나를 제외하면 55~85%의 성공률을 보였으며, 이런 결과를 토대로 연구팀은 현재의 얼굴 인증 메커니즘을 개선할 필요가 있다고 어필하였음


Ø 연구팀이 애플의 페이스 ID를 대상으로 테스트 할 지 여부는 아직 알려지지 않고 있는데, 트루뎁스 카메라가 얼굴을 3D로 감지 할 수 있어 아이폰 Ⅹ에 무단으로 접근할 수 없을 것으로 보이긴 하지만 만약 VR로 표현된 얼굴을 3D 프린터로 출력하면 상황은 달라질 지 모름


Ø 실제로 독일의 보안 솔루션 기업인 시큐리티 리서치 랩(Security Research Labs)은 얼굴의 3D 이미지를 3D 프린터로 생성하여 얼굴 인증 시스템을 테스트하는 연구를 진행하고 있음


Ø 이 기업은 피험자의 3D 얼굴 형상을 가지고 마이크로소프트의 얼굴 인증 시스템인 헬로(Hello)에서 인증받는 데 성공했다고 하며, 아이폰 Ⅹ이 정식 출시되면 페이스 ID의 보안성을 검증하는 작업을 시작할 것이라고 함


Ø 얼굴 인증과 관련한 가장 최근의 흥미로운 연구로는 영국 노팅엄 대학과 킹스턴 대학 연구팀이 대학이 발표한 1장의 얼굴 사진에서 인공지능을 이용해 3D로 얼굴을 구성하는 기술임


Ø 컴퓨터 비전에서 얼굴을 3D로 파악하는 것은 매우 어려운 기술이기 때문에 보통은 많은 사진을 입력하고 이들로부터 3D 이미지를 재구성하는 것이 일반적인 방법임


Ø 이에 비해 노팅엄 대학과 킹스턴 대학 연구팀은 이미지를 판단하는 CNN(Convolutional Neural Network, 뇌이랑 신경망)을 얼굴 사진과 본인의 3D 이미지로 교육함으로써 알고리즘이 1장의 얼굴 사진에서 3D 이미지를 재구성하는 것을 가능케 하였음



<자료> http://www.cs.nott.ac.uk/~psxasj/3dme/

[그림 6] 사진 1장으로 얼굴을 3D로 재구성



Ø 노팅엄 대학이 연구 성과를 기반으로 얼굴 인증 시스템에 대한 테스트를 실시한 것은 아니지만, 향후 AI를 악용한 얼굴 인증 시스템에 대한 공격이 급증할 수 있음을 시사하고 있으며, 아이폰 Ⅹ가 출시되면 페이스 ID 해킹 레이스가 시작되고 애플은 다양한 도전을 받게 될 것임


3D Face Reconstruction from a Single Image (클릭 사이트 이동)




ž 얼굴 인식이 향후 인증 기술의 주류가 될 지, 아니면 이용자의 호응과 신뢰를 얻지 못해 또 다른 인증 기술이 모색될 지, 당분간 애플 페이스 ID의 행보에 관심이 모일 전망


Ø 다양한 생체 인식 방식이 가운데 얼굴 인증 방식은 정밀도와 활용성이 높기 때문에 향후 크게 확산될 것으로 보는 전문가들이 많으며, 3~5년 후에는 인증 기술의 절반 이상이 얼굴 인증이 될 것이라는 예측도 있음


Ø 다른 생체인식과 비교해 보면, 목소리 인증은 콜센터 등에서 사용되고 있지만 복제하기가 쉬워 채택이 제한적이며, 이런 이유로 아마존 에코(Amazon Echo) 등은 인증이 아닌 이용자 식별을 위해 목소리를 사용하고 있을 뿐임


Ø 또한 현재는 지문 인증이 생체 인식 중 가장 폭넓게 이용되고 있지만 작은 센서로 지문을 정확하게 읽는 기술은 쉽지 않으며, 지문 또한 복제가 가능해 보안상 우려도 있음


Ø 이런 이유로 생체 인식에서 얼굴 인증이 주목 받고 있는 것이며, 아이폰 Ⅹ이 아직 정식 출시되지 않았음에도 페이스 ID는 이슈를 만들고 있고 얼굴 인증 기술의 동향과 관련해 많은 관심이 쏟아지고 있는 것임


Ø 아이폰 Ⅹ과 관련해 향후 또 하나 주목해야 할 것은 홍채 인식(Iris Recognition)으로 발전할 가능성인데, 홍채 인식은 정밀도가 얼굴 인식 보다 높아 오래 전부터 주목 받아온 방식이지만 적외선 센서 등 전용 장비가 필요하기 때문에 쉽사리 보급이 진행되고 있지 않음


Ø 삼성전자의 갤럭시 노트7과 노트8이 홍채 인식 기능을 이미 제공하고 있긴 하지만 인증 정확도와 보안성에 대해서는 아직 평가가 정확하지 않은 상황인데, 아이폰 Ⅹ이 얼굴 인식을 위해 적외선 센서를 탑재함에 따라 향후 홍채 인증울 진행하는 것 아니냐는 루머도 나오고 있음


Ø 비즈니스 타이밍 포착에 천재적인 애플이 이번에도 얼굴 인증을 대세 인증 기술로 밀어 올릴지, 페이스 ID에 대한 다양한 도전을 극복하지 못해 새로운 인증 기술을 모색하게 될 지, 아이폰 Ⅹ가 받아들 성적표에 벌써부터 많은 관심이 모이고 있음


댓글을 달아 주세요

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1792호(2017. 4. 19 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

화가와 인공지능의 패스티쉬 대결 예술로 가는 AI.pdf



[ 요 약 ]


빈센트 반 고흐의 일생을 고흐의 화풍으로 그린 6 5천장의 유화 작품으로 구성한 독특한 장편 애니메이션 러빙 빈센트에는 고흐 풍의 유화 제작을 위해 115명의 화가들이 참여하였음한편 영화 제작 기간 동안 구글은 인공지능(AI)이 특정 화가의 스타일을 습득한 다음 주어진 사진을 그 화가의 화풍으로 그린 그림으로 변환해 주는 기술을 발표하였음. AI를 이용한 패스티쉬(작품 모방)가 가능해짐에 따라 향후 인간과 AI의 협업을 통한 새로운 사업기회 모색이 활발히 전개될 전망


[ 본 문 ]


ž 영국의 영화사 브레이크스루(BreakThru Productions)는 최근 2011년부터 100여 명의 화가와 함께 작업해 온 장편 유화 애니메이션 러빙 빈센트(Loving Vincent)의 예고편을 공개


<자료> BreakThru

[동영상] 러빙 빈센트 공식 예고편


Ø 러빙 빈센트는 빈센트 반 고흐가 그린 작품과 함께 그의 작품 속 인물들과 가상 인터뷰를 통해 고흐의 삶과 인생을 내레이션 하는 애니메이션 영화로 반 고흐가 죽기 전 8년간의 인생에 초점을 두고 있다고 함


Ø 러빙 빈센트는 개봉 전부터 많은 관심을 받고 있는데, 세계 최초로 영화와 예고편 영상의 러닝타임에 등장하는 모든 프레임을 고흐 스타일의 유화 작품으로 구성했기 때문


Ø 영화 제작사는 화가로서 인생을 산 10년 동안 일주일에 약 두 점씩, 860여 점의 그림을 그리며 불꽃 같은 삶을 살다 간 빈센트 반 고흐의 삶을 고스란히 전달하기 위해 고흐 풍의 유화 애니메이션 영화를 만들게 되었다고 설명


Ø 영화의 프레임에 사용된 유화는 6 5천 점으로 영상 1초에 12점의 그림이 연사 된다고 하는데, 이를 위해 2011년부터 115 명의 화가가 유화 작업에 참여했다고 함



<자료> Hugh Welchman


[그림 1] 러빙 빈센트의 프레임 작화 방법


Ø 영화의 제작 방식은 배우의 연기를 카메라로 촬영한 다음 각 장면을 화가들이 유화로 그리는 것인데, 이를 위해 화가들은 고흐의 작품 스타일을 학습한 후 동영상의 프레임을 고흐 풍으로 모사하였음


Ø 가령 영화 속 고흐의 모습은 [그림 1]에서 보듯 고흐 역을 맡은 폴란드의 배우 로버트 굴락칙을 그린 유화로 표현되는데, 이 때 유화의 스타일은 고흐의 작품 자화상에 사용된 붓 터치 방식을 모방한 것임


ž 한편 영화의 제작이 한창이던 2015 9월 흥미롭게도 구글은 인공지능(AI)이 화가의 작품 스타일을 습득하고, 주어진 사진을 화가의 화풍을 따른 그림으로 변환하는 기술을 발표


Ø 영화 러빙 빈센트가 카메라로 촬영한 장면을 작가들이 고흐의 화풍을 모방하여 그린 것처럼, 구글은 인공지능을 대상으로 고흐의 스타일을 학습시킨 후 입력된 사진을 보고 이를 고흐 화풍의 유화로 변환하게 하는 기술을 개발한 것임


Ø 포스트 모더니즘의 대표적인 기법인 패스티쉬(Pastiche)는 패러디와 달리 비판하거나 풍자하려는 의도 없이 기존의 텍스트를 무작위적으로 모방하는 것을 말하는데, 영화 러빙 빈센트가 패스티쉬 기법으로 만들어진 것이라면, 구글은 인공지능 패스티쉬 기술을 개발했다 할 수 있음


Ø 구글은 회화를 패스티쉬 하는 심층 신경망(Deep Neural Network)의 연구개발 성과를 예술 스타일의 신경 알고리즘(A Neural Algorithm of Artistic Style)이라는 제목의 논문으로 발표하였음


Ø 발표 직후 이 짧은 논문은 개발자들은 물론 기술을 잘 모르는 일반인들에게도 관심을 불러 일으켰는데, 개발자 커뮤니티인 깃허브 등에서는 논문의 실효성 검증을 위한 프로젝트들이 만들어졌으며, 실험 결과 사진의 내용은 보존한 채 질감만 바꿔 출력할 수 있음이 검증되었음


ž 구글의 심층 신경망에 사진을 입력하면 여러 가지 스타일의 그림, 즉 유명 화가 여러 명의 화풍을 모방한 여러 장의 그림들로 변환해 줌


Ø [그림 2]에서 보듯 상단 왼쪽의 사진을 입력하면 윌리엄 터너의 The Shipwreck of the Minotaur(미노타우르스호의 난파)' 스타일, 반 고흐의 The Starry Night(별이 빛나는 밤) 스타일, 에드바르트 뭉크의 The Scream(비명) 스타일, 파블로 피카소의 Seated Nude(앉아있는 나부) 스타일, 바실리 칸딘스키의 Composition (구성 Ⅶ)’ 스타일의 그림으로 사진을 재구성함



<자료> A Neural Algorithm of Artistic Style


[그림 2] 사진을 5개 화풍을 따른 그림으로 변환


Ø 심층 신경망은 Convolutional Neural Network(CNN, 나선형 신경망, 이미지 인식 기능)을 사용하고 있는데, 하나의 신경망이 두 가지 기능을 가지고 있어 입력된 사진을 변환하는 동시에 화가의 작품 스타일을 학습함


Ø CNN은 각각의 레이어가 특징 량(feature)을 가진다고 보며, 이 특징 량들이 계층적(hierarchy)으로 쌓이면서 더 높은 레이어로 갈수록 더 좋은 특징 량을 만들어 낸다고 보기 때문에, 일반적으로 이미지 인식에서 월등한 성능을 낸다고 알려져 있음


Ø [그림 3]은 CNN에서 서로 다른 두 가지 방법으로 스타일과 콘텐츠를 레이어 별로 재구성 하는 것을 보여주는데, 위쪽은 고흐의 별이 빛나는 밤 스타일을 레이어 별로 재구성 한 것이고, 아래쪽은 튀빙겐에서 찍은 사진의 콘텐츠를 레이어 별로 재구성 한 것임


Ø 스타일 재구성에서 알 수 있는 것은 레이어가 얕을수록 원래 콘텐츠 정보는 거의 무시하고 질감(texture)을 복원하는 반면 깊은 레이어로 갈수록 점점 원래 콘텐츠 정보가 포함된다는 것으로, 현격한 특징 량을 추출하여 회화의 터치 등 화가의 스타일을 파악함


Ø 콘텐츠 구성을 보면, 낮은 레벨의 레이어는 거의 완벽하게 원본 이미지를 보존하고 있지만, 레이어가 깊어질수록 원본 이미지의 정보는 조금씩 소실되지만 가장 중요한 하이 레벨의 콘텐츠는 거의 유지가 되는 것을 볼 수 있음


Ø 논문은 이처럼 동일한 CNN이라 하더라도 콘텐츠와 스타일에 대한 재현이 분리가 되어 있다는 점을 중요하게 내세우고 있는데, 이를 통해 하나의 신경망을 이용해 서로 다른 이미지에서 서로 다른 콘텐츠와 스타일을 재구성하고 이 둘을 섞는 것이 가능한 것임


<자료> A Neural Algorithm of Artistic Style


[그림 3] 나선형 신경망(CNN)을 통한 스타일과 콘텐츠의 재구성 프로세스


ž 이후 구글은 CNN 기술을 보다 강화하여 새로운 논문을 추가로 발표하였는데, 이 논문은 이후 많은 스타트업들의 패스티쉬 앱 출시로 이어지게 되었음


Ø 구글이 기술을 강화해 발표한 후속 논문 A Learned Representation for Artistic Style(예술 스타일을 위한 학습된 재현)은 하나의 신경망으로 32 가지 스타일의 패스티쉬를 생성할 수 있는 프로세스를 소개하고 있음


Ø 또한 이 신경망은 입력된 이미지의 재구성을 실시간으로 실행하기 때문에 영상을 입력하면 재구성 된 영상이 출력되는데, 만일 러빙 빈센트 영화의 제작에 이 기술을 이용했다면 115명의 화가가 수만 장의 그림을 그릴 필요가 없었을 지도 모름


Ø 구글은 이 기술을 개발한 이유에 대해 새로운 예술의 문을 열기 위해서라고 밝히고 있으며, 화가의 스타일을 학습한 신경망은 스마트폰 앱으로 이용할 수 있을 것이라 말했음


Ø 실제로 이후 다수의 벤처기업들이 패스티쉬 앱을 출시하고 있는데, 그 중 가장 주목받은 앱은 프리즈마(Prisma)2016년 여름에 출시된 이후 5천만 다운로드를 기록하고 있음


Ø 프리즈마는 사진을 필터링 하거나 편집하는 앱과는 구조가 근본적으로 다른데, 구글의 CNN 기법을 사용하고 있어 AI가 사진을 분석한 후 학습된 유명 화가의 스타일로 재구성하며 사진을 회화의 예술로 다시 태어나게 함


Ø 사진을 입력한 후 원하는 회화 스타일을 선택하면 사진이 그림으로 변환되는데, 가령 몬드리안 스타일을 선택하면 사진이 가로 세로로 분할된 빨강, 파랑, 노랑의 삼원색으로 재구성됨



[그림 4프리즈마 앱의 몬드리안 스타일 변환


Ø 한편 최근 애플은 클립(Clips)이라는 자체 앱을 선보였는데, 이는 프리즈마 앱과 유사한 기능을 제공하기 위한 것으로 패스티쉬 앱의 인기가 일회성이 아님을 보여주는 반증이기도 함


ž 패스티쉬 앱은 새로운 예술 영역을 구축했다는 평가와 예술가들의 입지를 축소시킨다는 우려를 동시에 낳고 있는데, 예술 분야 역시 인간과 AI의 공존을 위한 모색이 필요할 전망


Ø 패스티쉬 앱의 보급과 함께 패스티쉬 팬도 크게 늘고 있는데, 인스타그램에는 프리즈마로 생성한 패스티쉬 작품이 다수 포스팅 되고 있음


Ø 아무 사진이나 변환한다고 해서 회화 예술이 되는 것이 아니지만 인스타그램에는 볼 만한 패스티쉬 작품이 다수 게재되어 예술의 새로운 영역을 구축하고 있다는 평가도 나오고 있으며, 매력적인 사진이 많은 인스타그램은 프리즈마로 회화의 즐거움이 더해져 더욱 풍부해지고 있음


Ø 반면, AI가 예술가의 일을 빼앗는 게 아니냐는 우려도 확산되고 있는데, AI가 동영상 패스티쉬도 생성할 수 있기 때문에 향후 러빙 빈센트 같은 애니메이션 영화가 추가로 제작된다면 예술가들이 불필요하게 될 것임을 지적하는 사람도 많음


Ø 이런 우려에 대해서는 예술가들이 패스티쉬를 제작하는 기계적 작업에서 해방되어 자신만의 창작 활동에 전념하게 될 것이라는 긍정적 반론도 있음


Ø AI는 반드시 모방할 원본을 필요로 하고 스스로 작품을 만들어내는 것은 아니기 때문에 복사의 범위를 벗어나지 못한다는 것이며, 결국 예술은 인간의 독창성에서 태어난다는 주장임


Ø 물론 이런 주장에 대해서는, 가령 알파고가 인간의 기보를 분석한 것이 아니라 알고리즘 스스로 만들어 낸 기보의 학습을 통해 인간 최고수를 꺾은 것처럼, 예술의 창작 역시 온전히 사람의 전유물이 아니며 AI도 얼마든지 창작 역량을 가질 수 있다는 재반론도 있음


Ø 이런 논란은 결국 회화 예술 분야 역시 인공지능과 인간의 협력, 또는 인간의 창작활동을 위한 AI의 지원 같이 인간과 AI이 공존을 위한 새로운 길의 모색이 필요할 것임을 시사


ž 예술가와 AI의 협업 모델 구축은 향후의 중요 과제로 남겠지만, 패스티쉬를 생성하는 AI를 이용한 새로운 비즈니스 창출 시도는 앞으로 활발히 전개될 예상됨


Ø 러빙 빈센트의 예에서 보듯 인간 예술가들이 수 년에 걸쳐 직접 패스티쉬를 만들기 보다 이를 AI에 맡겨 제작한다면 제작 시간을 단축 할 수 있게 되므로, AI는 우선 애니메이션 영화 제작 비즈니스에서 큰 잠재력을 가진 것으로 볼 수 있음


Ø 미야자키 하야오 같은 유명 애니메이션 아티스트의 스타일을 AI가 학습한다면, 아마 미야자키 하야오 감독의 은퇴 이후 인간이 아닌 AI가 감독의 영향을 가장 강하게 받은 후배로서 애니메이션 영화 제작을 주도할 수도 있을 것임


Ø 실제 프리즈마 앱은 이미 애니메이션 스타일로 변환하는 옵션도 제공하고 있어 이런 상상이 전혀 허황된 것은 아니며, 앞으로 애니메이션 창작 활동에서 인간과 AI가 담당해야 할 작업의 식별과 효과적 자원 배분은 영화 비즈니스의 핵심성공요소가 될 가능성이 높음


<자료> YouTube

[동영상] 프리즈마 앱의 애니메이션 생성 기능


Ø 영화 산업은 AI의 도입에 비교적 적극적인 산업의 하나로 이미 AI가 대본에 주도적으로 참여한 영화의 제작이 이루어지고 있으며, AI가 작곡한 음악을 영화의 배경음악(BGM)으로 사용하는 방안이 논의되고 있기 때문에 향후 적극적인 인간-AI의 협업 모델이 모색될 것으로 전망

댓글을 달아 주세요