※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1855호(2018. 7. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

오픈AI, 위화감 없이 두 얼굴을 합성해 주는 ‘글로우’ 기술 발표.pdf



인공지능 관련 비영리 연구기관으로 설립된 오픈AI(OpenAI)’는 위화감 없이 두 얼굴 사진을 합성할 수 있는 기술인 ‘Glow(글로우)’를 발표


오픈AI의 연구원인 프라풀라 다리왈과 더크 킹마에 의해 개발된 글로우는 가역 1×1 중첩(invertible 1x1 convolutions)’ 기술을 이용하는 이미지 생성 인공지능임


글로우는 두 사진을 합성할뿐더러 합성의 정도를 조절할 수 있는데, 가령 왼쪽 입력 창에 천체 물리학자 닐 디그래스 타이슨의 얼굴을 넣고, 오른쪽 입력 i창에 여배우 라시다 리 존스의 얼굴을 넣은 뒤 어느 쪽을 많이 반영할 것인지 조작할 수 있음


Glow: Better Reversible Generative Models

(클릭하면 링크 사이트에서 두 얼굴 합성을 체험해 볼 수 있습니다)


합성 창의 MIX 버튼 위치를 중앙 위치로 설정하면 두 사진 이미지를 균일하게 합성하게 되는데, 결과는 실재 인물일 것 같은 자연스러운 남성의 얼굴이 생성됨


MIX 조절 버튼을 왼쪽으로 옮기게 되면 결과 값은 왼쪽 입력 창에 있는 디그래스 타이슨의 특징이 더 강하게 반영하지만, 이 역시 MIX가 중앙일 때 나온 것과 마찬가지로 상당히 자연스러운 느낌을 줌


MIX 조절 버튼을 오른쪽으로 옮기면 당연히 리 존스의 얼굴 특징이 더 많이 반영되며, 결과 값은 약간 중성적 느낌이 나는 여성의 사진을 생성함


오픈AI는 글로우를 더 나은 가역적 생성 모델(better reversible generative model)'이라 설명하고 있는데, 한쪽 이미지와 다른 한쪽의 이미지 사이를 쉽게 오가며 다양한 합성 이미지를 생성할 수 있다는 뜻을 담고 있음

 

<자료> OpenAI Blog

[그림 1] 글로우를 이용한 두 사진의 다양한 합성

 

글로우는 얼굴 사진의 합성 외에도 사진에 나이, 수염, 미소등의 속성을 추가하여 이미지를 자연스럽게 변화시키는 기능도 제공함


<자료> Fast Company

[그림 2] 얼굴 속성 값의 변화


글로우는 학습한 이미지를 토대로 자동으로 레이블을 붙일 수 있는 것도 특징인데, 데모용으로 준비된 3만 명의 얼굴 사진을 학습시키면 자동으로 미소, 나이, 가는 눈, 금발, 수염등의 레이블을 설정함


자동으로 설정된 레이블은 나중에 자유롭게 조작할 수 있으며, 새로 입력된 이미지에 속성 변화를 추가할 수 있음


가령 왼쪽 입력 창에 유명 AI 연구자인 제프리 힌튼의 얼굴 사진을 세팅하고, ‘웃음-나이-금발-턱수염등의 속성 값을 최대로 하고, ‘가는 눈속성 값을 최대로 하면(눈 크게 뜨기 설정), 오른쪽의 출력 창에 설정을 반영한 변경된 사진이 생성됨


수염이 검은 것이 약간의 위화감을 주기는 하지만, 실재한다고 해도 이상하지 않은 남성의 얼굴이 생성되며 AI가 독자적으로 판단해 만들어 낸 것 같은 느낌은 주지 않음


오픈AI는 글로우를 깃허브(GitHub)에 공개해 누구나 자유롭게 사용해 보도록 하고 있음(https://github.com/openai/glow)


글로우를 동작시키기 위해는 기계학습 오픈소스 라이브러리인 텐서플로우(TensorFlow)와 우버가 만든 텐서플로우용 오픈소스 분산 딥러닝 프레임워크인 호로보드(Horovod)가 필요하며, 구체적인 조작 방법 등은 글로우 문서에 설명되어 있음


문서는 https://d4mucfpksywv.cloudfront.net/research-covers/glow/paper/glow.pdf에서 다운로드 받을 수 있음


두 연구원은 한 사진에서 다른 사진으로 넘어가는 도중의 변환 이미지 완성도에 대해 부자연스러운 합성이 보인다, 보다 자연스러운 변화를 주기 위해 자동회귀모형(autoregressive model)VAE 기법을 사용해 개선하고 싶다는 뜻을 밝히고 있음


VAE(Variational Autoencode, 변동 자동 인코딩)는 딥러닝 모델 중 하나로, 학습 데이터를 바탕으로 그 특징을 파악하여 학습한 데이터 세트와 비슷한 데이터를 생성할 수 있음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1850호(2018. 6. 13. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

미 국방부에 AI 기술 제공한 구글, 직원 항의로 계약 연장 포기.pdf



지난 5월 중순 구글 직원들은 미 국방부의 드론을 이용한 이슬람 국가 정찰에 구글의 AI 기술이 사용되고 있다며, 이 사업에서 구글이 철수할 것을 요청하며 항의한 바 있음


미 국방부는 드론을 이용한 정찰 임무를 수행하고 있는데, 여기에 AI(인공지능)를 도입하여 정찰 프로세스 자동화를 시도하였음


프로젝트 메이븐(Project Maven)’이라 명명된 이 시스템은 이슬람 국가(IS)와 시리아 등지에서 무인 항공기가 촬영한 영상에 찍혀있는 차량이나 인물 등의 객체를 AI가 이미지 분석을 통해 판정하도록 한 것임


그런데 구글이 메이븐 프로젝트에 AI 기술을 제공하고 있는 것으로 밝혀지면서 구글 직원들은 이에 항의하며, 순다르 피차이 CEO에게 국방부와 즉각적인 계약 해지를 요구하는 공개서한을 보냈음


공개서한에는 구글이 그 동안 군사 산업에 어떻게, 어느 범위로 관여해 왔는지, 그리고 회사의 방침이 정확히 무엇인지 밝힐 것을 요구하는 내용도 들어 있는데, 이 서한에는 4천 명의 구글 직원이 서명했고 12명의 엔지니어들은 항의의 뜻으로 퇴사하였음


<자료> Google

[그림 1] 구글 직원들의 항의 서한


이에 대해 구글 측은 국방부에 제공한 AI 기술은 드론을 비행시키거나 무기를 발사하는 데 사용되는 것은 아니며, 어디까지나 일반적인 임무에 사용되는 것이라 해명하였음


구글의 클라우드 사업부 총괄 책임자인 다이앤 그린은 구글이 공여한 것은 오픈소스인 텐서플로우(TensorFlow) API’이며, 무인 항공기로 촬영한 이미지를 분석하고 개체를 파악하기 위한 용도로 사용되고 있다고 밝혔음


프로젝트 메이븐에 공여된 기술은 전투력을 행사하는 전투 행위에 적용되는 것이 아니라, 입수한 데이터를 분석하는 일반적인 정보 행위에 사용되었다는 것임


따라서 구글이 제공한 기술은 소위 자율 병기(Autonomous Weapons)’에 사용되는 것이 아니며, 공격을 수반하지 않는 일상적인 정찰 활동에만 사용되었음을 강조하였음


자율 병기는 AI가 공격 목표를 파악하고, AI가 트리거를 시작하는 병기를 가리키는데, 인간의 판단을 거치지 않고 AI가 목표를 선택, 공격하므로 살인 로봇이라고도 불림


프로젝트 메이븐에서 적의 행동을 파악하는 데에만 AI를 사용한다는 구글의 해명에도 불구, 구글 직원들은 이 기술을 응용하면 얼마든 자율 병기로 이어질 우려가 있기 때문에 기술 공여에 반대한다는 입장을 더욱 거세게 표명하였음


미 국방부가 보도자료 형태로 공개한 프로젝트 메이븐의 개요를 보면, 국방부는 AI와 기계학습의 도입을 미션으로 하는 조직의 신설과 시스템 개발을 추진하고 있음


보도자료에 따르면 이 프로젝트 수행을 위해 국방부 내에 알고리즘 전쟁 교차 기능 팀(Algorithmic Warfare Cross-Functional Team)’이라는 부문이 신설되며, 프로젝트를 관할하는 시스템도 개발하게 됨


<자료> Wired

[그림 2] 신설된 알고리즘 전쟁 교차기능 팀


신설 부문은 국방부 조직 전반에 걸친 AI와 기계학습의 도입을 미션으로 하고 있으며, 그 첫 사업이 바로 프로젝트 메이븐임


미 국방부는 이슬람 국가(IS)가 지배하고 있는 지역과 시리아에서 무인 항공기를 비행시켜 정찰 활동을 전개하고 있는데, 무인 항공기에 탑재된 카메라로 지상을 촬영하면 애널리스트가 동영상과 사진을 보고 찍혀 있는 객체의 종류를 판정해 왔음


이 정찰 임무는 현재 전략 드론인 ‘ScanEagle’과 전술 무인 항공기인 ‘MQ-1C Gray Eagle’ ‘MQ-9 Reaper’이 맡고 있음


그런데 촬영된 이미지가 대용량이기 때문에 애널리스트가 수작업으로 처리하기에 한계가 있어, 이 과정을 AI로 자동화하는 것을 목적으로 메이븐 프로젝트를 시작하였음


알고리즘이 객체를 38개 종류(차량, 사람, 행동 등)로 특정한 후, 문제라고 생각되는 정보를 추출해 내면 이를 애널리스트가 정밀 분석하는 프로세스로 변경한 것임


◾ 구글 직원들의 반대 항의에 대해서는 과민반응이라는 의견과, 세계 최고 수준인 구글의 AI 기술력을 감안할 때 문제 소지를 사전에 차단해야 한다는 옹호론이 엇갈리고 있음


현재 구글만 미 국방부에 AI 기술을 공여하고 있는 것은 아니어서, 아마존과 마이크로소프트도 클라우드 서비스를 통해 이미지 분석 기술 등을 제공하고 있으며, 데이터 과학에서 톱을 달리는 팔란티어(Palantir) 역시 국방부에 정보 서비스를 제공하고 있음


이들 기업에서는 AI가 군사 목적으로 사용되는 것에 대해 반대 운동은 일어나지 않고 있는데, 이를 두고 타 산업과 마찬가지로 국방부도 정부 분석에 AI를 이용하는 것뿐인데 구글 직원들이 너무 이상향을 쫓는 것 아니냐고 불편해하는 시각도 있음


반면, 세계 최첨단의 AI 기술을 가진 구글이기 때문에 그 기술을 군사 시스템에 제공 한 것에 대한 반대의 목소리가 높아지고 있는데, 특히 악해지지 말자는 구글의 미션을 거론하며 비판하는 목소리가 많음


대학 교수를 중심으로 하는 AI 연구자 1천여 명은 구글 창업자이자 알파벳의 CEO인 래리 페이지에게 프로젝트 메이븐에서 손을 떼고, 앞으로도 AI를 군사 목적으로 사용하지 않는 것을 명확히 하라는 요구를 전달하기도 하였음


◾ 기업 안팎에서 항의가 거세지자 구글은 국방부와 계약을 연장하지 않겠다고 밝히며, AI 기술의 활용과 관련한 윤리 가이드라인을 만들어 발표하겠다는 계획을 밝혔음


사태가 발생하자 초기에 구글은 직원들의 항의에도 불구하고, 일반적인 정보 분석에 AI 기술이 적용된 것이라면 별 문제 없다는 입장을 고수하였음


그러나 직원들이 항의의 표시로 퇴사까지 하는 상황에서도 꿈쩍않는 구글에 대한 비난이 거세지면서 61일 다이앤 그린 클라우드 총괄 책임자는 직원과의 미팅을 통해 20193월 만료되는 메이븐 프로젝트의 계약을 연장하지 않겠다고 밝혔음


이 자리에서는 또한 AI 기술 활용과 관련한 윤리 가이드라인 작성 계획도 밝혔는데, 여기에 메이븐 프로젝트와 같이 군사 임무에 사용되는 경우도 포함할 지에 대해서는 정확히 알려지지 않았음


◾ 이번 문제는 비즈니스 철학에 대한 것이기도 하지만, 근본적으로는 국방에서 AI를 어느 범위까지 응용할 것인가에 대한 사회적 협의가 이루어지지 않은 데서 기인한 면이 큼


이번에 문제가 된 구글의 텐서플로우는 오픈소스로 공개되어 있기 때문에 누구나 자유롭게 사용할 수 있고, 구글이 계약을 연장하지 않는다고 해도 국방부의 프로젝트 메이븐에서는 텐서플로우를 계속해서 사용할 수 있음


텐서플로우 외에도 시장에는 수많은 오픈소스 AI 기술들이 공개되어 있으며 이들이 군사 목적으로 사용되고 있을 가능성을 배제할 수 없기에, 이번 구글 직원들에 의한 문제 제기는 AI 오픈소스를 어떻게 관리해야 하는가라는 본질적인 질문을 포함하고 있음


한편 AI의 군사 이용에 대해서는 일찍부터 그 위험성이 지적되었고, 전세계 차원에서 운용 지침의 제정이 요구되어 왔으나, 각국의 군사 시스템에서는 이미 고급 AI가 도입 되어 있고 통일된 규칙이 없는 채 개발이 선행되고 있는 상황임


이런 상황에서 구글이라는 AI의 강자가 언급되자 그 파급력에 대한 사회의 우려가 단번에 높아지면서 이슈화 된 것으로 볼 수 있는데, 이번 일을 계기로 하이테크 기업들은 AI의 군사 이용에 관한 명확한 정책 수립을 요구받게 될 것으로 보임


아울러 군사 프로젝트에 AI를 활용하는 것 외에 일반적인 AI 활용에 있어서도 더욱 엄격한 윤리적 지침을 마련해야 한다는 시민사회의 요구가 높아질 가능성도 제기되고 있음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1843호(2018. 4. 25. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

퀄컴 IoT 센서 전용의 신형 칩 발표, AI 보안 카메라 등 개발 촉진.pdf



ž 퀄컴은 IoT 엣지 디바이스의 비전 처리 전용 브랜드로 Qualcomm Vision Intelligence Platform을 만들고, 그 첫번째 행보로 SoC(시스템온칩) 제품 2개를 발표하였음


Ø 퀄컴은 칩뿐만 아니라 관련 소프트웨어도 제공하며, 이 중에는 학습된 신경망을 SoC에 구현하여 AI 추론을 실행하는 소프트웨어도 포함되어 있기 때문에, 칩과 소프트웨어를 조합하면 가령 AI 보안 감시 카메라의 개발을 보다 용이하게 할 수 있음


Ø 퀄컴은 Vision Intelligence Platform(비전 인텔리전스 플랫폼)의 응용분야로 산업 및 생활용 감시 카메라와 스포츠 카메라, 웨어러블 카메라, 360도·180도 가상현실(VR) 카메라, 로보틱스, 스마트 디스플레이 등을 꼽고 있음


<자료> Future Source


[그림 1] QCS605칩과 360 VR 카메라


Ø 퀄컴의 보도자료에 따르면 카메라와 스마트 도어락 제품을 판매하는 리코(RICOH)와 중국 KEDACOM(Keda Communications) 등이 비전 인텔리전스 플랫폼을 이용해 다양한 카메라 기기를 개발할 계획임


Ø 이번에 발표된 2 종류의 SoCQCS605QCS603은 모두 삼성전자의 1세대 10nm FinFET 공정(10LPE)에서 제조하게 되며 현재 샘플 제품을 출하 중에 있음


Ø 퀄컴과 대만의 알텍(Altek)은 현재 QCS605를 기반으로 한 360 VR 카메라의 레퍼런스 디자인을 제공 중이며, QCS603을 기반으로 한 산업용 감시 카메라의 레퍼런스 디자인은 2018년 하반기에 제공할 예정임


ž 비전 인텔리전스 플랫폼에서 주목 받고 있는 AI 추론 처리는 퀄컴AI 엔진을 통해 제공되는데, 퀄컴은 학습된 신경망을 AI 엔진에 맞게 최적화하는 소프트웨어도 제공하고 있음


Ø QCS605QCS603은 모두 퀄컴의 스마트폰용 SoC스냅드래곤(Snapdragon) 프로세서에서 이동통신(LTE)용 모뎀 회로를 제외했을 뿐 동일한 칩 내부 구성을 채택하고 있는데, QCS605가 상위 제품으로 QCS603보다 동작 주파수가 높고 기능이 많음


Ø CPU 코어를 예로 들면, 두 칩 모두 ARMv8-A 아키텍처에 퀄컴 독자적인 마이크로 아키텍처인 카이로(Kyro) 300을 통합했으나, 상위 제품인 QCS605는 동작 주파수 2.5GHz카이로 300 골드 2개와 동작 주파수 1.7GHz카이로 300 실버 6개 등 총 8코어로 구성


Ø 반면 하위 제품인 QCS603은 동작 주파수 1.6GHz카이로 300 골드 2개와 동작 주파수 1.7GHz카이로 300 실버 2개 등 총 4코어 구성을 채택하였음


Ø CPU 코어를 제외하면, 두 제품 모두 GPU 코어로는 퀄컴 아드리노(Adreno) 615, DSP(디지털신호처리) 코어로는 퀄컴 헥사곤(Hexagon) 685 벡터 프로세서, ISP(이미지신호처리) 프로세서로는 퀄컴 스펙트라(Spectra) 270을 탑재하고 있음


Ø 이 밖에 IEEE 802.11ac 지원 와이파이 회로(QCS605 2×2 MIMO 지원), 블루투스 5.1 회로, GNSS(글로벌 내비게이션 위성 시스템) 수신 회로, 동영상 압축 신장 회로, 오디오 처리 회로, 디스플레이 출력 회로 등을 탑재하고 있어 기능은 매우 풍부한 편


Ø 비전 인텔리전스 플랫폼의 AI 추론 처리가 이루어지는 퀄컴 AI 엔진 시스템에서는 신경망 처리 전용 회로가 아닌 앞서 기술한 CPU 코어, GPU 코어, DSP 코어 등 3종의 프로세서 코어를 이용함


Ø 구체적으로 살펴보면 스냅드래곤 신경 처리 엔진(Neural Processing Engine, NPE)이라 불리는 소프트웨어가 학습된 신경망을 3종의 프로세서 코어에 분산하는 형태로 구현함


Ø 이를 위해 퀄컴은 텐서플로우(Tensorflow)나 카페(Caffe) 등 업계 표준 프레임워크를 통해 학습된 신경망을 AI 엔진에 최적화하는 소프트웨어도 함께 제공하고 있음


ž 한편, 반도체 소프트웨어 프로그래밍 업체인 카덴스 디자인 시스템(Cadence Design Systems)도 비전 처리 및 AI 추론 처리를 위한 DSP 코어 신제품을 발표하였음


Ø 신제품 텐실리카 비전(Tensilica Vision) Q6 DSP(이하 비전 Q6)DSP 연산을 수행하는 회로로, 비전 처리 및 AI 추론 처리용 IC 설계 시에 이용됨


Ø 이전 제품인 비전 P6 DSP에 비해 연산 성능이 1.5, 전력 효율이 1.25배 증가하였는데, 16nm FinFET 프로세스에서 비전 Q6를 구현하는 경우 최대 동작 주파수는 1.5GHz


Ø 카덴스 측에 따르면 비전 Q6는 비전 P6와 마찬가지로 단독으로 비전 처리나 AI 추론 처리도 가능하지만, 규모가 큰 CNN(Convolutional Neural Network)을 처리하는 경우 상위제품인 비전 C5 DSP와 조합하여 사용하는 것이 효율적이라고 함


Ø 비전 Q6P6가 는 256 병렬 처리가 가능한 반면 비전 C5 1024 병렬 처리가 가능하기 

때문인데, 단 그렇기 때문에 비전 C5는 소형화 면에서 칩 면적이 커지는 단점은 있음


<자료> Cadence IP


[그림 2카덴스 디자인 시스템의 DSP 제품별 주 사용 용도


ž DSP 코어 신제품은 AI 추론 처리를 위한 지원 기능이 풍부해졌으며, 카덴스는 비전 처리나 광범위한 데이터 처리를 위한 다양한 개발 플로우도 준비하고 있음


Ø 추가된 지원 기능 중 대표적인 것은 안드로이드 신경망(Android Neural Network, ANN) API 지원으로, 안드로이드용 앱에서 비전 DSP의 호출이 용이하게 되었음


Ø 또한 대응 가능한 학습 프레임워크도 늘었는데, 지금까지 지원한 카페 외에도 텐서플로우와 텐서플로우 라이트도 지원함


Ø CNN 중에 사용자 고유의 커스텀 계층을 넣는 작업도 쉽게 할 수 있게 했는데, MobileNet, SegNet, YOLO 등 업계에서 잘 알려진 학습된 CNN의 동작 검증을 시행할 수 있음


Ø 카덴스 측은 학습된 신경망에서의 개발 흐름뿐만 아니라 비전 처리나 광범위한 데이터 처리를 위한 개발 플로우도 준비하고 있는데, OpenCL 또는 C/C++, OpenVX 등으로 작성한 디자인도 DSP에 구현할 수 있게 하려는 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1837호(2018. 3. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

소니, 사내 AI 인재 양성 위해 사용하기 쉬운 딥러닝 도구 개발.pdf



ž 외부에서 구하기 어려운 인공지능(AI) 응용 인력을 확보하기 위해 소니는 사내 직원들의 AI 응용 감각을 훈련시키기 위한 도구를 자체 개발하였음


Ø 기계학습을 비롯해 AI를 기존 비즈니스에 활용하기 위해 각 기업들은 AI 인재의 확보에 열을 올리고 있는데, 특히 중요하게 생각하는 인력은 자사의 제품 및 기업의 핵심 과제와 AI 기술 사이의 친화성을 적절하게 평가할 수 있는 AI 응용 인재


Ø 그러나 AI 기술을 자사 제품과 연계하려면 제품에 대해 정확히 이해하고 있어야 하고, 기업의 핵심 과제는 내부 기밀의 성격도 있어 외부로 공개되지 않아야 할 필요가 있는 만큼, AI 응용 인재는 본질적으로 외부에서 구하기 어렵다는 문제가 있음


Ø 이런 딜레마를 해결하기 위해 소니가 찾은 해결책은 사내 직원들이 딥러닝(Deep Learning)의 응용 감각을 연마할 수 있는 훈련 도구를 자체 개발하여 배포하는 것이었음


Ø 소니는 우선 2017 6월에 딥러닝 라이브러리인 Neural Network Libraries(NNL)을 오픈소스 소프트웨어로 공개하였음


<자료> Futurism


[그림 1] 소니의 딥러닝 라이브러리 NNL


Ø 이 라이브러리를 이용하면 기본적인 DNN(deep neural network) 이외에 RNN(recurrent neural network), GAN(generative adversarial network) 등 다양한 딥러닝 모델을 설계할 수 있음


Ø 개발된 모델은 C++ 언어의 소스 코드로 출력이 가능하며, 변환의 번거로움 없이 스마트폰을 비롯한 다양한 디바이스에 탑재할 수 있는 장점이 있음


Ø 이어 2017 8월에는 GUI 환경에서 NNL의 기능을 사용할 수 있는 통합 개발 도구 Neural Network Console(NNC)도 오픈소스로 공개했는데, 딥러닝 개발의 사실상 표준 언어인 파이선(Python)을 배우지 않아도 GUI를 통해 직관적인 개발이 가능하게 되어 있음


<자료> Futurism


[그림 2 NNL 이용 통합개발기구 NNC


ž NNL은 현재 소니 그룹 내에서 약 1천 명이 사용 중이며, AI 개발 경험이 없는 개발자가 NNL을 이용해 3개월 만에 제품 탑재가 가능한 인식 시스템을 개발한 사례도 있다고 함


Ø NNL은 원래 딥러닝 연구개발을 효율화 하려는 목적으로 소니의 R&D 팀이 사내에서 개발 한 라이브러리인데, 소니가 2010년경부터 기존의 기계학습 기술을 점차 딥러닝으로 대체하면서 개발자용 소프트웨어의 정비를 진행해왔음


Ø 소니 그룹의 NNL 사용자는 이미 1,000명 이상으로 확산되고 있다고 하며, 소니 그룹 내 다양한 사업분야에서 NNL NNC를 이용한 제품 개발 실적이 나오고 있다고 함


Ø 가령 2018 1월에 소니가 출시한 아이보(aibo) 로봇에 탑재된 이미지 인식 기능은 NNL을 이용해 개발된 것임


Ø 그 밖에 소니의 스마트폰 Xperia시리즈에 탑재하는 AR(증강현실) 사진 촬영 앱인 AR 이펙트와 블루투스 헤드셋인 Xperia Ear를 이용해 머리 움직임을 인식하는 헤드 제스처 인식 기능, 소니 부동산의 부동산 가격 추정 엔진 등의 개발에 이 도구들이 이용되었음


Ø 기계학습의 초보자도 개발을 쉽게 할 수 있도록 하기 위해, NNC는 다운로드 하여 사용하는 윈도우 버전 외에 GPU에 의한 학습이 가능한 클라우드 버전(오픈 베타)으로도 제공되고 있음


Ø 딥러닝 개발 프레임워크는 소니 외에도 이미 여러 기업이 OSS로 공개하고 있는데, 캘리포니아 대학 버클리 캠퍼스의 카페(Caffe)와 구글의 텐서플로우(TensorFlow), 프리퍼드 네트웍스(Preferred Network)s체이너(Chainer) 등이 대표적임


Ø 이들 타사의 개발 환경에 대해 소니는, 기계학습에 익숙한 사용자에게는 상당히 사용하기 쉬운 면이 있지만, 경험이 전혀 없는 초보자에게는 도구의 동작 환경을 갖추는 것 자체가 장벽일 정도로 어려운 면이 있다고 평하며, NNL NNC의 접근 용이성을 강조하고 있음


ž 소니는 사용하기 쉬운 AI 개발 도구가 더 혁신적인 AI 응용 사례를 만들어 낼 것이라 보고 있으며, 무료 공개를 통해 내부 인재 육성뿐 아니라 미래 인재 확보도 도모하고 있음


Ø 딥러닝의 도입을 저해하는 요인 중 하나로 그 작동 메커니즘을 알 수 없는 블랙박스 시스템을 제품과 서비스에 적용할 수는 없다는 기존의 개발 관행이 거론되기도 함


Ø 가령 기존의 인식 기술은 대상을 상세하게 분석하고 표현력이 높은 특징량과 판별이 정확한 감식기를 세밀하게 조정하면서 정확도를 향상시켜 개발하는 것이 일반적이었음


Ø 이에 비해 딥러닝의 개발에서는 학습시키는 교사 데이터의 양과 질이 학습을 마친 모델의 성능을 크게 좌우하는, 즉 데이터 수집 자체가 개발 완성도와 직결되는 방식임


Ø 양자의 개발 스타일에 차이가 있기 때문에, 기존 기계학습 기술에 익숙한 전문가의 경우 과거의 지식을 버리고 데이터 기반 방식으로 전환하는 것에 심리적 저항이 많다고 함


Ø 이러한 상황 때문에 소니 측은 오히려 기계학습 경험이 없는 젊은 개발자들이 딥러닝의 개발 사상에 거부감이 없다고 보고 있으며, NNL NNC를 젊은 층이 많이 활용해 줄 것을 기대하고 있음


Ø 소니는 직원들에게 우선은 자신의 업무과 직결되지 않더라도 가령 간단한 이미지 인식 모델의 개발부터 시작해 효과를 직접 경험해 볼 것을 권고하고 있는데, 어느 정도 숙달되면 자신의 업무에 적용할 아이디어를 떠올릴 수 있게 될 것으로 보기 때문


Ø 소니가 NNL NNC를 오픈소스로 공개한 배경에는 내부 인재 육성뿐 아니라 미래 인재 확보의 목적도 있음


Ø 지금까지 소니는 자신들의 AI 관련 연구개발 성과를 대외적으로 어필해 오지 않았지만, 이번 도구의 공개를 계기로 다시 한번 소니의 기술력을 주목하게 함으로써 향후 딥러닝을 하고 싶어 하는 인재들이 소니를 선택하게 하는 계기로 만들고자 하는 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1833호(2018. 2. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

인도 연구팀, 딥러닝을 이용해 AI에 &lsquo;풍자&rsquo;를 이해시키는 연구 진행.pdf



ž 인도 파트나(Patna) 공과대학 학장인 Pushpak Bhattacharyya는 딥러닝을 통해 인터넷 상에서 반어적(아이러니) 표현의 의견과 악의적 발언을 검출하는 연구를 진행하고 있음


Ø 부정적 내용을 긍정적인 표현에 담아 우회적으로 전달하는 풍자(Sarcasm) 는 말 그대로의 의미와 속뜻이 다르기 때문에 말하는 사람의 감정이나 상황 맥락을 이해하지 못하는 컴퓨터는 이해할 수 없는 것으로 알려져 왔음


Ø 그러나 Bhattacharyya 교수팀은 대량의 텍스트 데이터를 딥러닝을 통해 분석하고, 말과 의미의 관계성에서 문장에 내포된 풍자를 컴퓨터가 파악하게 하는 연구를 진행 중이며, 자신의 연구팀 외에 언어학자, 심리학자와 공동으로 작업을 진행 중


Ø Bhattacharyya 교수는 풍자나 아이러니 분석 연구가 국가 원수, 정치인, 유명 연예인, 기업 등 세간의 평판을 신경 써야 하는 사람들에게 도움을 줄 수 있을 것이라 말하고 있음


Ø 이들은 주로 글 쓴 사람의 감정 분석을 통해 트위터와 같은 소셜 미디어에서 자신들의 평판을 체크하고 있는데, Bhattacharyya에 따르면 풍자야말로 사람의 감정의 움직임을 명확히 보여 줌에도 기존의 감정 분석 기법은 이를 제대로 이해하지 못하는 문제가 있음


ž Bhattacharyya 교수에 따르면 딥러닝을 이용해 새로 설계한 자신의 알고리즘이 기존 감정 분석 방식보다 3배 가량 정확하게 풍자를 감지해 낼 수 있었다고 함


Ø Bhattacharyya 교수의 조사에 따르면, 배터리가 2시간이나 버텼네, 멋지군 등과 같이 풍자나 아이러니를 담고 있는 트윗 중 약 20%는 숫자를 포함하고 있는데, 이런 문장들에서 일반적인 감정 분석 기법은 발화자의 원래 의도를 잘 캐치하지 못한다고 함




Ø 본래 비꼬는 말투를 알아차리려면 문맥을 이해할 수 있어야 하는데, Bhattacharyya 교수는 모순된 표현이나 생경한 감정 표현이 풍자의 특징이라며, 기존의 감정 분석 기법은 일반적 패턴과 다른 표현이 이어지는 것 때문에 본뜻을 이해하지 못하다고 설명


Ø 문제 해결을 위해 Bhattacharyya 교수는 말이나 표현의 불일치를 검출하는 알고리즘을 설계했으며, 딥러닝을 구성하고 학습시킬 수 있는 라이브러리인 CuDNN에 고속화된 텐서플로우(TensorFlow) 프레임워크를 도입하고, 엔비디어의 GPU를 이용한 신경망을 구축하였음




Ø 그 다음 대량의 트윗, 영화 평론, 1990년대 인기 시트콤 프렌즈의 대사 등 대량의 텍스트 데이터를 준비해 딥러닝을 이용한 데이터 분석을 실시하였음


Ø 분석 결과 Bhattacharyya 교수가 설계한 알고리즘은 기존 방식보다 정확하게 풍자나 아이러니를 감지 할 수 있었으며, 특히 숫자를 포함한 트윗에 대해서는 기존 감정 분석 기법보다 약 3배 가량 높은 80%의 정확도로 풍자를 이해할 수 있었다고 함