※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1854호(2018. 7. 11. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 액션 카메라 ‘클립스’, 사진작가 기술 습득한 AI가 자동 촬영.pdf



구글이 판매 중인 구글 클립스(Google Clips)’ 제품은 AI(인공지능)가 탑재되어 있어 자동으로 비디오를 촬영해 주는 액션 카메라임


구글 클립스에 탑재된 알고리즘은 그림이 된다 싶은 장면을 인식하여 자동으로 셔터를 누르는데, 실제 사용해 본 사람들은 클립스가 기기 자신만의 기호를 가지고 있는 듯 하며 사람과 애완동물이 즐거워하는 장면을 비디오로 담는다는 평을 내놓고 있음


딥러닝이 진화하며 알고리즘이 개체의 종류를 정확하게 파악할 수 있게 되면서 이 기술을 응용하여 AI가 인간을 대신해 사진을 촬영하는 기술이 새로운 개발 주제가 되고 있는데, 구글 클립스는 이런 흐름을 정확히 반영한 제품임


클립스는 단일한 솔루션으로 카메라가 셔터 찬스를 자동으로 인식하여 전문 사진작가처럼 비디오를 촬영하게 하는 것을 목표로 설계되었음


클립스는 가족이나 애완동물 등의 촬영을 주로 가정하여 디자인되었으며, 따라서 인텔리전트 기능을 통해 AI가 사람과 애완동물을 정확히 식별함


클립스에 가족 구성원들을 가르쳐두면 그 인물을 중심으로 촬영을 하며, 알고리즘은 미소 혹은 춤과 포옹 같은 움직임을 셔터 찬스로 파악해 비디오 촬영을 시작함



클립스는 웹캠과 유사한 디자인을 띤 소형 카메라이며, 별도의 뷰파인더 없이 스마트폰 앱으로 비디오를 확인하고 카메라의 위치도 조정함


<자료> The Verge

[그림 1] AI 액션 카메라구글 클립스


카메라 렌즈 부분을 오른쪽으로 돌리면 촬영이 시작되는데, 촬영 중에는 흰색 표시등이 깜박거리며 촬영 중임을 표시해 줌


클립스는 최고의 씬을 선택해 6초짜리 짧은 비디오 클립을 수록하게 되며, 렌즈 아래의 버튼을 누르면 수동으로 촬영할 수도 있음


클립스는 130도 광각 렌즈를 탑재하고 있어 피사체에 가까이 놓고 사용할 필요가 있는데, 피사체와 거리가 3~8피트(0.9~2.4 미터)가 적합하다고 함


클립스에는 뷰파인더가 없어 스마트폰 앱 구글 클립스로 카메라에 잡힌 영상을 확인하게 되며, 카메라의 위치도 앱으로 확인해 수평상태로 되어 있는지 등을 체크


<자료> Google

[그림 2] 스마트폰 앱을 통한 비디오 확인


촬영한 동영상은 클립의 스토리지(16GB)에 저장되며, 이 비디오가 클립에서 앱으로 전송되어 스마트폰으로 볼 수 있는 것임


비디오에서 저장(Save) 옵션을 선택하면 사진 저장 클라우드인 구글 포토(Google Photos)에 업로드 되며, 비디오는 사진 또는 비디오 클립으로 저장할 수 있고, 개인정보보호 차원에서 촬영한 비디오는 저장 기능을 사용하지 않는 한 장치에서만 보관됨


사람을 대신해 촬영을 하는 클립스의 AI는 자연스러운 장면을 포착해 촬영하도록 교육된 것으로 보이며, 구도, 색채, 조명 등은 그다지 고려하지 않는 것으로 보임


클립스는 사람 대신 AI가 인상적인 장면을 자동으로 촬영하기 때문에 스마트폰을 가지고 피사체를 추적해야 할 필요가 없음


식사 중이라면 클립스를 테이블에 놓아두는 것만으로 그림이 되는 장면을 촬영할 수 있고, 수영장에서 놀고 있는 아이를 촬영하고 싶으면 클립스를 아이쪽으로 향해 두는 것만으로 즐거워하는 장면을 촬영할 수 있음


파인더로 보며 셔터 찬스를 얻기 위해 쫓아다녀야 할 일을 AI가 대행해 주기 때문에 클립스 사용이 늘어난다면 향후 비디오 촬영 스타일은 근본적으로 바뀔 수 있음


클립스는 그림이 된다 싶은 장면을 포착할 때 두드러진 판정 기준을 가지고 있는데, 사람이 어떤 행동을 취하는 것에 민감하게 반응하여 셔터를 누르는 것으로 보임


가령 뛰어 오르거나 춤을 추는 장면 등을 촬영 기회라고 이해하며, 또한 엄마와 아기가 물에 손을 넣고 물보라를 일으키며 놀고 있는 장면 등은 놓치지 않는데, 특히 즐거운 듯이 웃고 있는 장면은 반드시 촬영을 함


반면, 구도, 색채, 조명에 대해서는 고려하지 않는 것으로 보이는데, 이는 클립스에 내장된 AI가 사람이나 애완동물의 자연스러운 장면을 촬영하도록 교육되어 있음을 시사


<자료> PetaPixel

[그림 3] 미소포옹키스 등을 주로 포착


구글은 클립스의 AI를 교육하기 위해 전문 사진작가의 사진 기술 노하우를 알고리즘 교육을 위한 데이터로 생성했다고 함


알고리즘에 최적의 장면이 무엇인지 학습시키기 위해 구글은 먼저 교육 데이터를 생성했는데, 이를 위해 비디오에서 많은 세그먼트를 추출하여 장면들의 쌍을 만들고, 전문 사진작가들에게 각각의 쌍을 비교해 어느 쪽이 그림이 되는 지를 선택하게 하였음


이런 취사선택을 교육 자료로 만들어 알고리즘 교육에 사용했는데, 신경망(MobileNet Image Content Model)이 장면 속의 객체를 판정하게 하고, 기계학습 기법(Segmented Regression)을 통해 어느 장면이 그림이 되는지 판정하게 하였음


이 과정을 반복하며 클립스의 알고리즘은 전문 사진작가의 기법을 학습하게 된 것임


<자료> Google

[그림 4] 클립스 탑재 AI의 알고리즘 교육과정


실제 사용해본 사람들은 클립스가 가족들이 즐거워하는 얼굴 표정이나 몸 동작을 확실하게 파악해 일상생활의 한 단면을 인상적인 비디오로 생성해준다는 평을 내놓고 있음


클립스가 잡은 화면은 생동감 있는 장면이 많은 것이 특징으로, 전문가의 기법을 전수받았기 때문인지 아마추어들의 사진보다 테크닉이 낫다는 것이 대체적인 평이며, 사람은 클립스가 촬영한 동영상 중에서 마음에 드는 장면을 고르기만 하면 됨


구글 클립스는 아직 한계가 많지만 사진 촬영의 주도권이 사람에서 AI로 전환되는 방향으로 나아가고 있음을 알려주는 전령사로 향후 기술 발전 속도에 관심이 모이고 있음


클립스의 AI는 교육 내용에 종속적이기 때문에 지금은 가족으로 등록된 사람이나 애완동물의 움직임에만 반응하며 다른 개체를 자동으로 촬영 할 수는 없음


사람들이 주로 사진이나 비디오를 찍는 이유가 되는 관광 명소나 멋진 옷을 촬영하도록 교육시키지 않았기 때문에 알고리즘은 이러한 피사체를 촬영 대상으로 인식하지 못함


이런 제한성 때문인지, 올해 2월부터 판매되기 시작한 클립스의 판매실적은 정확히 발표되고 있지 않지만, 5월부터 판매가격을 기존 249 달러에서 199 달러로 내린 데서 소비자들의 대중적 반응은 아직 없는 것으로 추정되고 있음


그러나 지금 당장 사진 촬영의 주체가 사람에서 AI로 넘어가는 것은 아니더라도, 클립스는 사람의 기술이 AI로 대체되는 방향으로 진행되고 있음을 보여주는 또 하나의 사례가 될 것이라는 게 대체적인 전망임


<자료> Google

[그림 5] 사람 대신 촬영해 주는 AI 카메라


알고리즘 교육 데이터가 늘어나면 클립스가 찍을 수 있는 대상은 언제든 확대가 가능하므로, 인스타그램에서 주목받는 인기 사진과 비디오를 사람이 아닌 AI가 촬영하는 시대가 이미 목전에 와 있다는 것임


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1851호(2018. 6. 20. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI로 강화된 이미지 검색 기능 &lsquo;구글 렌즈&rsquo;의 가능성과 과제.pdf



[ 요 약 ]


구글이 인공지능(AI) 기술을 접목해 이미지 인식 기능이 한층 강화된 구글 렌즈(Goolge Lens)'의 새로운 버전을 발표하였음. 구글 렌즈는 구글이 지난 2010년에 공개했으나 성공하지 못했던 고글 서비스의 업그레이드 버전으로 이미지 검색을 내비게이션, 주소록 관리, 온라인 쇼핑 등으로 곧 바로 연결시킬 수 있음. 구글 렌즈는 현단계 컴퓨터 비전의 최고 수준을 보여주고 있지만, 스마트폰의 제한된 자원으로 AI 분석을 수행하기 때문에 연속 사용시간이 20여분에 불과해 일상적인 이용 서비스가 되기엔 다소 시간이 소요될 전망



[ 본 문 ]

201711월에 구글 렌즈(Google Lens)’를 선보였던 구글이 6개월 만에 기능을 대폭 강화시킨 최신 버전을 내놓았음


구글 렌즈는 기본적으로 증강현실(Augmented Reality) 기능이며, 카메라가 포착한 개체에 정보를 추가하는 구조임


구글 렌즈는 구글의 자체 제작 스마트폰인 픽셀(Pixel) 2’ 등에 탑재되어 있는데, 인공지능 가상비서인 구글 어시스턴트(Google Assistant)’와 연계해 작동하므로, 구글 렌즈를 시작하려면 구글 어시스턴트 화면에서 렌즈 아이콘을 터치하면 됨


구글 렌즈는 앱의 형태로도 제공되기 때문에 플레이스토어에서 다운로드 받아 사용할 수도 있으나, AI 전용 프로세서 등 하드웨어 종속적 측면이 있어 기능을 온전히 이용할 수 있는 스마트폰 기종은 픽셀2, LG G7, 소니 엑스페리아 XZ2 등으로 한정됨


이번에 발표된 구글 렌즈 최신 버전에서는 이미지 검색 기능이 큰 주목을 받고 있는데, 이미지 검색 기술 자체는 새로운 것이 아니나, 고급 AI 기술이 접목되면서 이미지 검색 기능의 정확도가 크게 향상된 것이 특징


이미지 검색 기능은 기술 수준이 향상될수록 활용 분야가 넓어지고 활용 가치도 커지기 때문에 구글 렌즈 최신 버전의 성능에 많은 관심이 모이고 있음


구글 렌즈는 우선 인식 대상이 텍스트임을 알고 이를 문자로 변환할 수 있는데, 그 의미를 이해하기 때문에 연관된 기능을 스스로 하거나 사용자에게 제안할 수 있음


가령 명함을 카메라로 읽으면 그대로 주소록에 등록할 수 있고, 명함에 기재되어 있는 전화번호를 인식하여 곧바로 전화를 걸 수도 있으며, 주소를 인식하면 구글 지도(Google Maps)를 호출하여 해당 위치까지 경로를 탐색할 수 있음


또한 길을 가다 보게 된 포스터에 관심이 있는 가수의 콘서트 안내 내용이 있다면 구글 렌즈를 통해 콘서트의 공연 프로그램과 연락처 정보를 추출할 수도 있음


구글 렌즈는 소위 OCR(광학문자인식)로서 기능하는 것이지만 그 내용의 의미까지 이해하기 때문에 활용가치가 보다 커지는 것임



<자료> Gadget Hacks

[그림 1] 구글 렌즈로 명함과 포스터 인식


구글 렌즈의 이미지 인식 수준은 회화나 조각 등 예술작품을 식별할 수 있을 정도로 높기 때문에 고도의 전문성을 요하는 서비스에도 활용이 가능함


미술관에서는 오디오 가이드를 빌리거나 도슨트의 설명 시간을 기다리는 대신 구글 렌즈에 가이드 역할을 맡길 수 있는데, 구글 렌즈로 그림을 보면 작품의 제목과 개략적 설명이 나타나고, 표시된 링크를 따라 가면 작품 내용에 대한 설명을 읽을 수 있음


예를 들어 인상파 화가 폴 세잔의 그림 샤토 누아(Château-Noir)’나 조각가 오귀스트 로댕의 청동 조작 작품 칼레의 시민(Les Bourgeois de Calais)’을 정확히 인식하고 소개와 연관 정보를 제시해 줌


미술관에서 촬영한 사진을 나중에 구글 렌즈로 볼 때도 비슷한 개요 설명이 표시되는데, 구글 렌즈의 그림에 대한 인식 수준은 아주 높다는 평을 받을 받고 있어, 앞으로 사람들의 미술 감상 스타일이 바뀔 수 있다는 전망도 나오고 있음


<자료> the Verge

[그림 2] 회화와 조각 미술품을 정확히 인식


미술관 도슨트의 역할 대행과 마찬가지로 구글 렌즈는 관광 가이드 역할도 대신할 수 있는데, 랜드마크가 되는 주요 건물과 기념물, 조형물을 인식할 수 있기 때문


주변의 건물 등에 카메라를 비추면 구글 렌즈는 해당 건물을 인식해 그 이름을 표시해 주며 링크 정보를 함께 제공하는데, 가령 구글 본사를 카메라로 찍으면 구글플렉스(Googleplex)’라는 건물명을 정확히 보여 줌


주요 건물을 촬영한 사진을 나중에 구글 렌즈에서 보면 관광했던 장소의 이름과 간략한 소개글을 보여 줌


<자료> the Verge

[그림 3] 유명 랜드마크 건물의 인식


곳곳에 수없이 존재하는 랜드마크를 인식하는 것은 생각보다 고도의 기술을 필요로 하는데, 특히 보는 각도와 그림자의 방향이 다르기 때문에 랜드마크 이미지를 정확히 판정하는 것은 미술품의 판정보다 매우 어려움


현재 구글 렌즈가 정확히 인식할 수 있는 랜드마크의 수는 한정되어 있고 인식 정확도도 완전하지 않아 향후 더욱 기술 개선이 필요한 상황이라고 함


구글 렌즈를 식물도감으로 활용하는 것도 가능해졌는데, 단 화초에 대한 인식 능력의 제법 괜찮은 편이지만 나무와 잎모양에 대한 판정 능력은 아직 크게 떨어지는 편임


카메라로 집 주변이나 유원지에서 찍은 화초 산진을 보면 구글 렌즈는 자스민(Jasmine)’이라거나 하나비시소우(California Poppy)’라는 식으로 알려주기 때문에 휴대형 식물도감으로 사용하는 것도 가능함


식물은 비슷비슷해 보이는 것들이 많기 때문에 판정이 어렵고, 아주 고도의 학습된 신경망이 필요하지만 구글 렌즈로 꽃을 비추면 반응 속도가 빠르며 정답률도 나쁜 편이 아님


반면, 나무나 나뭇잎에 대해서는 알고리즘 교육이 아직 충분치 않은 것인지 인식 능력이 크게 떨어진다는 평을 받고 있음


전반적으로 비록 제한 사항은 있지만 구글 렌즈로 주변 식물의 종류를 일부나마 알 수 있게 된 것은 그 자체로 컴퓨터 비전 기술의 진화를 잘 보여주는 사례라는 반응이 주를 이루고 있음


이처럼 AI와 결합으로 한층 진화된 구글 렌즈의 이마지 인식 성능을 응용하여 구글은 새롭게 스마트 텍스트 선택기능과 스타일 매치기능을 추가하였음


스마트 텍스트 선택(Smart Text Selection)’ 기능은 구글 렌즈로 인식한 텍스트 중에서 특정 부분을 선택하는 기능인데, 가령 레스토랑 메뉴 중에서 무엇인지 잘 몰라 궁금한 요리를 선택하면 구글 렌즈가 그 내용을 설명해 주게 됨프랑스어나 이탈리아어 등으로 적혀 있을 경우에는 선택 후 번역(Translate)’ 버튼을 터치하면 되는데, 요리의 종류가 무엇이고 주요 사용 재료가 무엇인지를 설명해 줌

<자료> Android Authority

[그림 4] 구글 렌즈의 스마트 텍스트 선택


스타일 매치(Style Match)’는 패션과 가구 등을 제안하는 기능인데, 구글 렌즈로 세련된 옷의 사진을 보면 그 옷과 동일하거나 유사한 디자인의 의류 상품을 제시해 주는데, 제시된 상품이 마음에 든다면 곧 바로 구매할 수도 있음


비단 의류만 그런 것은 아니고 신발이나 가방을 보면, 같은 취향의 상품을 표시해 주고 집안에서 구글 렌즈로 가구를 비추어도 유사한 가구 제품을 보여 줌


이미지로 유사 상품을 제안하는 기능은 아마존 등 쇼핑몰에서도 제공하고 있지만, 구글 렌즈는 카메라에서 포착한 라이브 이미지를 실시간으로 영상 분석한 다음 디자인이 비슷한 상품을 검색해 제시하기 때문에 보다 고도의 기술이 필요한 것임



<자료> Digital Trends

[그림 5] 구글 렌즈의 스타일 매치


◾ 구글 렌즈의 새로운 기능을 뒷받침하는 엣지 컴퓨팅 기반 실시간 분석은 현단계 최고 수준의 컴퓨터 비전 기술을 보여주나 배터리 과소모 등 해결해야 할 난제도 남아 있음


기술적 측면에서 구글 렌즈의 가장 큰 기능적 특징은 실시간 결과(Real-Time Results)’라 할 수 있는데, 말 그대로 실시간으로 객체를 파악할 수 있게 해 줌


구글 렌즈가 탑재된 카메라로 주위를 둘러보면 렌즈에 찍힌 객체 주변에 흰 점이 나타나는 것을 볼 수 있는데, 이 점들은 AI로 분석한 영역을 나타내는 것이며 실시간으로 파악한 후 관련된 정보를 표시해 주는 것임, 구글 렌즈는 시스템 아키텍처 상의 맨 끝(엣지, edge)에 위치한 스마트폰에서 AI로 이미지 분석을 수행하고 메타 정보를 클라우드로 전송하여 백엔드에서 검색 프로세스를 실행하는 구조임


<자료> Digital Trends

[그림 6] 구글 렌즈의 실시간 이미지 분석


이미지 분석에서 엣지 컴퓨팅을 사용한 것은 놀라운 일인데, 스마트폰의 제한된 컴퓨팅 자원으로 신경망을 가동시켜 이미지 분석을 수행해야 하는데다가, 빛의 조건이나 촬영 각도에 따라 이미지가 크게 바뀌기 때문에 개체 인식이 어렵기 때문임


구글은 엣지 컴퓨팅을 위해 클라이언트에는 구글이 자체 개발한 이미지 처리 전용 AI 프로세서인 픽셀 비주얼 코어(Pixel Visual Core)’ 탑재를 권장사항으로 하고 있고, 클라우드 상의 AI 처리에는 클라우드 TPU(Cloud TPU)'를 사용하고 있음


구글 렌즈는 클라어언트에서 실시간으로 연속적인 이미지 분석을 수행하는 구조를 갖추고 있어 최고의 컴퓨터 비전이라 할 수 있지만, 단 프로세서에 높은 부하가 발생해 스마트폰의 발열이 심하고 20분 정도 계속하게 되면 배터리가 바닥나는 문제가 있음


구글에 따르면픽셀 비주얼 코어칩이 표준 프로세서보다 속도가 5배 빠르고 전력 소비량은 10분의 1에 불과한데, 그럼에도 불구하고 구글 렌즈의 연속 사용시간이 20분에 불과하다는 것임


바꿔 말해 픽셀 비주얼 코어를 탑재하지 않은 스마트폰이라면 배터리 소모가 더욱 심할 것이기 때문에, 비판적으로 본다면 구글 렌즈는 아직까지는 컨셉에 가깝고 실제 일상적인 스마트폰 기능으로 사용하기엔 아직 요원하다 말할 수도 있음


이는 스마트폰이라는 제한된 컴퓨터 처리 용량과 배터리 용량을 가진 디바이스를 AI 분석의 단말기로 사용하기 때문에 발생하는 것으로 현재로서는 어쩔 수 없는 문제이며, 향후 지속적으로 해결해야 할 과제임


◾ 구글 렌즈는 일종의 증강현실 기반 이미지 검색으로 구글의 핵심 사업인 검색 서비스 강화가 목적으로 보이며, 기술이 안정화된다면 새로운 구글링 도구로 일상에 자리 잡을 전망


구글은 지난 2010년 이미지 검색 스마트폰 앱인 구글 고글(Google Goggles)'을 선보인 바 있지만 폭넓게 확산되지는 못했음


구글 고글은 랜드마크, 도서, 주소록, 예술작품, 장소, 와인, 브랜드 로고 검색을 이미지 검색으로 수행한다는 컨셉으로, 구글 렌즈가 하려는 기능과 사실상 동일함


<자료> Kliker

[그림 7] 구글 고글의 이미지 검색 기능


구글 렌즈는 구글 고글의 후속 사업모델인 셈인데, 고급 AI를 구현하여 검색 정확도가 크게 향상되었기 때문에 구글은 사용 확산은 기대하고 있음


구글 어시스턴트는 단어 검색 질의뿐 아니라 비디오와 이미지 검색 기능 실행을 통해 검색의 폭을 크게 넓히려 하고 있는데, 구글 렌즈는 구글 어시스턴트를 통한 이미지 검색 질의 건수 증가에도 기여할 것으로 보임


이미지 검색의 정확도를 높이고, 그 결과를 전자상거래와 곧 바로 연결한다는 점에서 구글 렌즈는 구글의 핵심 비즈니스에 가장 부합하는 것이라 할 수 있음


사용시간 문제 등 아직은 일상화하기에 부적합한 면이 있지만 구글 렌즈는 다양한 용도로 활용이 가능하기 때문에, 구글링이 일상적 행위로 자리 잡은 것처럼 구글 렌징도 배터리 문제만 해결된다면 이용자들의 일상 속에 녹아들 것으로 전망되고 있음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1847호(2018. 5. 23. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

상용화 단계에 다다르고 있는 AI 이용 &lsquo;마인드 리딩&rsquo; 기술.pdf



사람의 생각과 마음을 소프트웨어로 읽어 내는 마인드 리딩(Mind Reading)’ 기술은 점차 비즈니스 응용 및 상용화가 가능한 단계에 다다르고 있음


미래 학자들은 오래 전부터 마인드 리딩 기술의 등장을 예측해 왔으며, 실제로 뇌파의 패턴을 검출하는 것은 수십 년 전부터 가능했으나 마인드 리딩까지 가기에는 퍼즐 조각 하나가 부족했는데, 바로 감지한 뇌파를 해석하는 기술임


하지만 인공지능(AI)과 기계학습 기술의 발전에 힘입어 이 퍼즐도 맞춰져 가고 있으며, 마침내 사람의 머릿속에서 일어나는 일들을 알 수 있게 되었음


이 처리 과정을 거칠게 요약하면, 우선 연구진이 개발한 소프트웨어로 인간의 뇌에서 측정한 데이터를 가져와 이를 단어 및 이미지와 매핑시켜 놓고, 이후에 측정한 데이터를 읽고 해석하여 다양한 유형의 생각 표출 및 멘탈 제어 애플리케이션에 사용하는 것임


가령 매사추세츠 공대(MIT) 미디어랩이 고안한 얼굴에 장착하는 장치는 기계학습 시스템과 결합되어 있는데, 사용자가 머릿속으로 생각한 단어를 읽어 내 이를 텍스트로 변환해 주는 기능을 수행함


실시간으로 음성을 텍스트로 전환해 주는 기기들은 이미 많이 사용되고 있지만, MIT가 개발한 기기는 사람이 말하는 과정이 없어도 텍스트 전환이 가능하다는 것이 차이점


사람이 말을 하는 것은 뇌가 얼굴의 근육에 신호를 보냄으로써 가능한 것인데, 연구에 의하면 소리를 내지 않고 마음속으로 무언가 생각을 하게 되는 경우에도 뇌에서 얼굴로 신경 근육 신호가 보내진다고 함


MIT 미디어랩이 개발한 알터에고(AlterEgo)’ 기기는 이 신경근 신호를 전극으로 포착한 후 기계학습 시스템을 이용해 특정 신호를 특정 단어와 매칭함


따라서 이 장치를 이용하면 목소리를 내지 않고 말하기(subvocalization)’ 혹은 침묵의 발성(silent speech)’ 과정을 발성 과정과 동일하게 처리하는 것이 가능해 짐


<자료> MIT Media Labs

[그림 1] 속말을 텍스트로 변환하는 알터에고 프로토타입


연구팀에 따르면 사람마다 얼굴 생김새는 다르지만, 15분 정도만 커스터마이징을 하고 기계학습을 시키면 92%의 정확도를 달성할 수 있었다고 함


이 장치는 골전도 이어폰을 내장하고 있기 때문에, 머릿속으로 가상 비서에게 정보 요청을 한 후 바로 옆에 서 있는 사람도 들을 수 없는, 오직 자신만 들을 수 있는 소리로 보고를 받을 수 있는 애플리케이션의 구현도 가능함


알터에고 기기는 마인드 리딩 기술의 놀라운 사용례라고 할 수 있는데, 뇌가 보내는 모든 신호를 읽는 것이 아니라 안면 근육에 보내는 신호만을 파악해 생각을 읽어냄으로써 속말을 컴퓨터 인터페이스화 할 수 있음을 보여주었다는 데 큰 의의가 있음


또한 이미 보편화 되고 있는 가상 비서와 대화 같은 행위를 다른 사람이 들을 수 없게 수행할 수 있게 함으로써 가상 비서 이용 맥락을 확장했다는 점에서도 의의가 있음


알터에고 외에도 말 또는 소리와 뇌 활동 사이의 연관성을 해석하여 사람과 컴퓨터 사이의 인터페이스 기술로 활용하려는 시도는 여러 대학과 기업을 통해 진행되고 있음


UC 샌프란시스코 대학의 연구팀도 90% 정확도의 마인드 리딩 기기를 개발했는데, 이 장치는 사람이 소리를 들을 때 일어나는 뇌 활동을 감지하는 기술을 기반으로 함


뇌의 활동을 텍스트로 전환해 주는 이 기기의 명칭은 뉴로프로스테시스(neuroprosthesis)’인데, 일종의 간질 치료 방식을 이용한 것으로 피험자의 뇌 표면에 전극을 이식하고 이를 통해 청각 피질의 뇌파를 모니터링 함


외부로부터 감지한 것이든 스스로 만들어낸 것이든 발성은 생각을 텍스트로 변환할 수 있는 장치를 고안하기 위해 필요한 첫 번째 단계가 됨


연구팀은 이렇게 데이터를 얻은 다음 알고리즘을 이용해 특정 단어를 들을 때 뇌파가 어떻게 변하는지를 매핑함으로써 뇌파를 해독하였음


카네기 멜론 대학의 연구팀은 뇌의 스캔을 통해 복잡한 생각을 읽어 내고 이를 적절한 문장으로 변환해주는 방법을 고안했는데, 이들의 연구는 복잡한 사고 과정에서 다음에 올 문장을 AI로 예측할 수 있는 가능성을 보여주었음


페이스북도 마인드 리딩 프로젝트에 착수했는데, ‘빌딩 8(Building 8)’이라는 비공개 조직을 두고 이용자들이 생각만으로 페이스북 메신저에 메시지를 보낼 수 있게 하는 방법을 개발하고 있음


<자료> The Verge

[그림 2] 페이스북의 뇌-컴퓨터 인터페이스(BCI)


유저 인터페이스 개발이 본업인 마이크로소프트도 지난 해 뇌의 행동을 이용해 컴퓨터나 애플리케이션 상태를 변경하는 인터페이스를 개발에 관한 특허를 등록하였음


MS의 연구에 따르면, 가령 음악 재생 시에 소리의 크기에 불쾌감을 느꼈다는 뇌의 활동이 감지되면, 자동적으로 볼륨을 낮추라고 지시하는 것이 가능해 짐


이런 인터페이스 기술은 마우스의 정확도 향상에서부터 복합현실(MR) 기기인 홀로렌즈(HoloLens)’에 이르기까지 마이크로소프트와 관련된 모든 제품에 응용될 수 있음


말이나 소리뿐 아니라 눈에 비치는 시각적 이미지를 이용한 마인드 리딩에 관한 연구 역시 상당한 진전을 이루고 있음


최근 토론토 대학 스카보로 캠퍼스의 연구팀이 공개한 논문은 뇌의 활동에 근거해 피험자에게 보여 준 얼굴의 이미지를 대략적으로나마 재현 가능함을 보여주고 있음


13명의 피험자에게 140명의 얼굴 사진을 보여 주고 그 때마다 나타난 뇌파(EEG) 데이터를 연구팀이 개발한 AI 알고리즘으로 처리한 결과, 희미하지만 식별 가능한 형태로 피험자들에게 보여준 사진의 얼굴을 재현할 수 있었다고 함


연구팀을 조만간 기억 만에서 얼굴을 재현하는 것도 가능할 것으로 확신하고 있는데, 이런 기술은 당연히 경찰 같은 수사기관에 쓰임새가 상당할 것임


교토 대학의 연구팀도 토론토 대학의 연구와 유사한 기능을 가지는 신경망 시스템을 개발하고 있는데, 피험자에게 사진을 보여 주고 기능자기공명단층촬영(fMRI) 장치로 뇌의 혈류 모양을 스캔한 후 AI를 이용해 피험체가 본 이미지를 추정하는 연구임


<자료> Cerebral Cortex

[그림 3] 시각피질 활동 분석을 통한 마인드 리딩


퍼듀 대학 연구팀도 fMRI 장치와 AI를 이용한 마인드 리딩 연구를 진행하고 있는데, 피험자에게 동영상을 보여 주고, AI를 이용해 동영상을 볼 때 시각 피질에서 일어나는 뇌의 활동을 이해하도록 소프트웨어를 학습시켰음


연구팀은 반복 실험을 통해 뇌의 활동 상태만을 보고서 그 사람이 무엇을 보고 있는지를 알아낼 수 있을 것으로 기대하고 있음


보다 실용성을 염두에 둔 맥락에서 마인드 리딩을 연구하는 사례들도 나타나고 있는데, 가상현실(VR) 게임과 자동차 제어에 응용하는 것이 대표적임


스타트업 뉴러블(Neurable)’은 가상현실 게임인 어웨이크닝(Awakening)에서 물건을 집어 올리거나 던지는 작업을 머릿속 생각만으로 할 수 있게 했는데, 전극이 탑재된 머리띠를 HTCVR 헤드셋인 바이브(VIVE)에 연결하여 구현하였음


<자료> gigazine

[그림 4] 바이브 HMD에 전극을 연결한 뉴러블


뉴러블의 게임은 MIT 미디어랩의 연구와 마찬가지로 머릿속의 생각 전체를 읽는 것이 아니라 이용자의 신경 활동을 이용해 명령이나 지시로 사용하는 것임


한편 HTC의 액셀러레이터 프로그램인 ‘VIVE X’에 참가 중인 우리나라의 룩시드 랩스(Looxid Labs)’가 개발 중인 모바일 VR 헤드셋은 시선 추적과 뇌파 측정을 함께 이용하여 감정을 인식하는 기술을 탑재하고 있음


룩시드 랩스는 동일한 기능을 가진 HTC 바이브용 어태치먼트도 개발했는데, 개발자 키트는 올해 여름에 출시할 예정임


보다 실용적인 예로는 올해 3월 제네마 국제 모터쇼에서 닛산 자동차가 공개한 컨셉 카 ‘IMx KURO’를 들 수 있는데 드라이버의 뇌파를 측정하는 헤드셋을 갖추고 있음


이 컨셉 카는 운전자의 뇌파를 이용해 차량의 반응 속도를 향상시키는데, 가령 운전자가 브레이크를 걸려고 하면 뇌파를 감지해 실제 운전자가 브레이크 페달을 밟기 전에 제동을 시작하는 것으로, 닛산에 따르면 차량 반응 속도가 최대 0.5초 빨라진다고 함


◾ 마인드 리딩 AI 기술의 눈부신 발전을 가장 잘 활용하는 길은 독립적인 마인드 컨트롤 애플리케이션의 개발이 아니라 기존 비즈니스 애플리케이션을 향상시키고 보완하는 것임


마인드 리딩 기술의 가치를 극대화하려면 이 기술을 SF 영화에 나오는 초인적 두뇌를 가진 사이보그나 외계인의 능력이 아니라, 우리가 현재 이용 중인 기술들의 정확도와 자율성을 높여주는 아주 현실적인 기술로 바라볼 필요가 있음


예를 들어, 기존의 기술과 마인드 리딩을 결합하면 사용자 본인의 의도와 사고 과정을 이해할 수 있어 자동 수정 및 음성 인식 정확도는 100% 가까이 향상될 수 있음


그때그때의 기분에 따라 조명과 볼륨이 자동으로 조정되도록 하는 것이나 유저 인터페이스가 사용자가 의도한 방식대로 정확히 작동하도록 하는 것도 현실적인 마인드 리딩 기술의 활용 예임


사이버 보안 분야 스타트업인 엠파우(Empow)'는 랜섬웨어 공격을 행하는 해커들의 의도를 정확히 읽음으로써 해커와 전쟁에서 우위를 차지할 수 있게 해주는 마인드 리딩 AI를 개발하고 있는데, 이 역시 매우 현실적인 응용이라 할 수 있음


한편, 중국의 공장, 국영 기업, 군대에서는 대규모로 직원들이나 군인들의 뇌의 활동을 모니터링하고 있는데, 무선 센서를 모자에 장착하고 여기서 얻은 데이터를 A로 분석해 작업장의 전반적인 분위기를 감지하고 있음


이런 방식의 활용은 현실적이기는 하나 빅브라더 논란을 낳기도 하는데, 중국의 기업들은 이 감정 감시 기술을 이용해 직원들의 배치를 전환하거나 휴식 시간의 길이를 조정함으로써 생산성을 높이고 결과적으로 이윤을 높이는데 활용한다는 입장임


AI 기술의 진전이 마인드 리딩을 손에 잡히는 기술로 만들고 있기 때문에, 이제는 공상이 아니라 이 기술을 이용해 실용적이고 생산성을 향상시킬 수 있으며 사용하기가 즐거운 애플리케이션을 어떻게 개발할 것인지를 고민해야 할 때임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1841호(2018. 4. 11. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

여성에게 어필하는 사진을 자동 선정하는 AI, SNS 마케팅에 활용.pdf



ž 주로 여성들에게 인기 있는 사진 공유 사이트 인스타그램에서 인기를 얻을 수 있도록 포스트 할 내용을 자동으로 선정해 주는 마케팅 서비스가 올 여름부터 시작될 예정


Ø 디지털 마케팅 사업을 하고 있는 사이버 버즈(Cyber Buzz)는 인기 있는 게시물 사진의 스킬을 AI(인공 지능)에게 학습시킨 후, 타깃 계층에게 인기가 있을 만한 해시태그나 사진을 자동으로 선정하게 해주는 서비스를 준비하고 있음


Ø 이러한 시도는 효과적인 해시태그를 많이 만들어 내 업무 효율성을 높이고, 사람은 미처 발견하지 못할 수 있는 히트 상품을 찾아 마케팅의 성과를 높이기 위한 것임


Ø 디지털 마케팅을 수행하는 기업들에게 인스타그램의 활용은 중요한 테마인데, 사이버 버즈의 새로운 서비스는 인스타그램에 모이는 여성의 마음을 AI가 사로잡을 수 있는지 여부를 가늠할 수 있다는 점에서 주목할 만함


ž 사이버 버즈의 새로운 서비스는 #으로 시작하는 메시지 분류를 위한 메타 데이터, 즉 해시태그를 AI가 자동으로 수집하는 것에서부터 시작


Ø 인스타그램에 올라 온 사진에 관련된 다양한 데이터를 AI로 분석함으로써, 이를 토대로 인스타그램에서 이용자의 평가가 높고 화제가 될 만한 게시물을 쉽게 만들 수 있게 해 줌


Ø 분석 대상이 되는 데이터는 해시태그의 내용과 게시된 사진 이미지, 게시물에 붙은 팔로워 수와 좋아요 횟수, 댓글 수 등이라고 함


Ø 작성자의 특징이나 과거 실적도 분석 대상인데, 특히 중시하는 것이 소위 인플루언서(Influencer)라고 부르는 인기 작성자나 유명인사들임


Ø 사이버 버즈는 인스타그램 팔로워 수가 1만 명 이상인 인플루언서 900명을 확보하고 있으며, 혼자 7만여 명의 팔로워를 갖고 있는 인플루언서를 직원으로 두고 있기도 함


Ø 사이버 버즈는 인스타그램을 통해 마케팅을 전개하고자 고객 기업의 요구에 대응해, 인플루언서를 선정해 해당 제품을 이용하고 있는 모습의 사진 등을 게시하도록 하고, 고객 기업으로부터 광고료 등을 받는 사업모델을 운영하고 있음


Ø 각 인플루언서들은 화장품이나 패션, 음식 등 전문 분야를 가지고 있는데, 사이버 버즈는 전문 분야와 과거의 실적을 AI로 분석하여 인플루언서들이 인스타그램에서 인기 해시태그를 선택할 수 있도록 지원한다는 계획임


<자료> King Kong


[그림 1] 인스타그램의 인플루언서 마케팅



ž 사이버 버즈는 현재 AI를 이용한 새로운 시스템의 성능을 인간 마케터를 대조군으로 하여 A/B 테스트로 검증하고 있음


Ø 동일한 게시물에 대해 AI가 선택한 해시태그와 인간 마케팅 지원 담당자가 선택한 해시태그를 비교하여 어느 쪽이 사용자들에게 호응을 얻는지 알아보는 실험을 하고 있는 것임


Ø 사이버 버즈의 CEO에 따르면, AI의 선택에 대한 반응이 베테랑 마케터가 내는 퍼포먼스와 비슷해지고 있는데, 이는 AI를 활용하는 첫번째 목적이 마케팅 실무 담당자의 업무 효율성을 향상시키는 것이라는 점에서 매우 고무적임


Ø 사이버 버즈의 경우 인스타그램을 이용한 마케팅 지원 사업의 광고료 수입은 2017년에 전년 대비 50% 증가하며 블로그 등을 이용하던 기존 마케팅 지원 사업을 넘어섰다고 함


Ø 기업들이 인스타그램 활용하려는 수요가 급증하고 있어 마케터들만으로는 수요를 충족하기 어려운 상황이 되고 있는 가운데, AI를 사용해 수많은 게시물에 해시태그를 자동으로 부여할 수 있도록 한다면 마케터의 부담을 줄일 수 있다는 것이 사이버 버즈의 생각임


Ø 더 나아가 미래에는 사람이 즉각 발견해 내기 어려운 인기 해시태그를 찾아내는 일을 AI가 해줄 수 있을 것으로 기대하고 있음


Ø 사이버 버즈는 AI의 활용 범위를 단계적으로 확대해 2018년 내에 페이스북과 트위터에서도 해시태그를 자동 선택할 수 있도록 할 방침임


Ø 또한 인스타그램에 게시할 사진의 후보군 중에서 가장 인기를 얻을 것으로 예상되는 사진을 자동으로 선택할 수 있게 하는 기능도 개발할 예정임


ž AI를 이용한 인스타그램 마케팅을 지렛대로 사이버 버즈는 인스타그램 관련 사업을 확대해 나갈 계획인데, 현재 가장 주목하고 있는 것은 인플루언서 전자상거래 사업임


Ø 사이버 버즈는 인플루언서가 선정한 추천 상품을 판매하는 ‘인플루언서 상거래(Influencer Commerce, IC)’가 가능성이 높다고 보고 있음


Ø 많은 전자상거래 사이트들은 검색 결과의 상품이 너무 많아서 어느 것을 사야 할 지 고민하게 만드는데, 자신이 팔로윙 하는 인플루언서가 추천해 주는 상품이라면 취향을 저격할 가능성이 높기 때문

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1839호(2018. 3. 28. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

IBM과 MS, 기업이 추가 학습시킬 수 있는 AI 서비스 제공.pdf



ž IBM, MS, 구글 등이 제공하는 클라우드 인공지능(AI)을 기업이 독자적인 데이터로 추가 학습시켜 자사의 비즈니스에 적합한 AI를 손쉽게 개발하려는 움직임이 확산되고 있음


Ø 가령 오토박스 세븐(Autobacs Seven)IBM의 이미지 인식 AI의 클라우드 서비스인 Visual Recognition에다가 다양한 마모 상태의 타이어 이미지를 이용해 추가 학습시켜 타이어의 마모 상태를 진단할 수 있는 AI 2개월 만에 개발하였음


<자료> Autobacs

[그림 1] 타이어 마모 진단 스마트폰 앱


Ø
오토박스 세븐은 클라우드에서 동작하는 이 AI를 호출하여 이용할 수 있는 스마트폰 앱을 2017 9월부터 제공중임


Ø 이 앱을 이용하는 사용자가 자기 차량의 타이어를 촬영하면 이미지는 곧바로 IBM의 클라우드로 보내지며, 추가 학습을 마친 AI는 마모 수준을 대·· 소의 3 단계로 평가해 줌


<자료> Autobacs


[그림 1] 타이어 마모 진단 스마트폰 앱


ž 추가 학습이 가능한 클라우드 AI 서비스 기능을 제공하는 이유는 범용 AI로는 특정 분야에서 요구되는 정확도 높은 진단이나 판단을 기대할 수 없기 때문


Ø 추가 학습이 가능한 AI 서비스가 등장하기 전에 클라우드로 제공되는 AI 서비스는 크게 두 가지 유형으로 분류할 수 있었음


Ø 하나는 AI의 소프트웨어 모듈 및 실행 환경을 제공하는 유형으로, 학습되지 않은 백지 상태의 AI가 제공되므로 사용자 기업은 방대한 학습 자료를 직접 준비해야 했으며, 소프트웨어 모듈의 선택과 AI 튜닝 등을 위한 개발 스킬을 필요로 하는 등 허들이 높았음


Ø 또 다른 유형은 학습된 AI 제공 서비스로, 클라우드 사업자가 방대한 학습 자료로 개발한 것이며, 화면에 비춰진 사물의 인식, 동일인 여부 판정, 성별이나 연령의 판정, 자연 언어의 의도 해석, 기계 번역 등의 단일 기능 AI 서비스로 다시 세분화 됨


Ø 학습된 AI는 일종의 기성품으로 즉시 사용할 수 있는 장점이 있지만, 기능별로 범용으로 만들어졌기 때문에 특정 분야에 적용할 정도의 높은 정확도를 기대하는 것은 어려웠음


Ø 가령 오토박스7의 앱과 비교한다면, 화면에 비춰진 물건을 인식하는 기능으로는 이 물체가 타이어라고 인식할 수는 있지만, 타이어의 마모 수준까지는 판정할 수 없었던 것임


ž 기존 두 유형의 AI에서 장점만 취한 것이 추가 학습이 가능한 학습된 AI 서비스임


Ø 학습된 AI가 바탕이 되고 있기 때문에, 사용자 기업은 추가 학습용 데이터를 준비하고 읽을 수 있도록 튜닝 함으로써 특정 용도에 맞춘 AI를 비교적 단기간에 개발할 수 있음


Ø 앞서 소개한 오토박스 세븐 외에도, NAVITIME(내비타임)은 추가 학습이 가능한 AI 서비스를 이용하여 사용자가 스마트폰 앱으로 입력한 사진 이미지를 바탕으로 한 관광 명소를 제안하는 기능을 강화하였음


Ø 또한 역이나 거리에 설치하는 광고 전송 기기 앞에 서 있는 사람의 표정을 심층 분석할 수 있도록 추가 학습이 가능한 AI 서비스의 도입을 검토하기 시작한 광고대행사도 있음


ž 추가 학습이 가능한 학습된 AI 서비스의 장르로 특히 인기가 있는 것은 이미지 분석인데, IBM, MS, 구글 등이 이 서비스를 잇따라 출시하고 있기 때문


Ø 오토박스 세븐이 활용하는 IBM Visual Recognition 2016 5 월부터 제공되고 있음


Ø 마이크로소프트는 2017 5월부터 Custom Vision Service의 프리뷰 버전을 제공하고 있으며, 2018 1월에는 구글이 Google Cloud AutoML Vision을 이용자 한정의 알파 버전으로 제공하기 시작했음


Ø MSCustom Vision Service는 고객 기업이 스스로 마련한 이미지에 태그를 붙이고 학습시킴으로써 특정 용도의 AI를 개발할 수 있게 하고 있음


Ø 요리 이미지를 판별하는 추가 학습을 시킬 경우, 기업이 직접 준비한 음식 이미지를 요리 이름으로 태그를 붙여 업로드만 하면 되며, 추가 학습한 AI에 태그가 붙지 않은 알 수 없는 이미지를 업로드 하면 미리 등록한 분류에 따라 유사도를 표시해 줌


<자료> xTech


[그림 2] MS Custom Vision Service를 이용한 요리 AI 교육


Ø 두 개 이상의 태그가 필요하고 준비해야 할 이미지는 하나의 태그마다 최소한 5장인데, 이미지가 많을수록 정확도가 올라가지만 추가 학습을 위한 데이터가 반드시 대량으로 있지 않아도 어느 정도 의도한 분류는 가능함


Ø 추가 학습이 가능한 학습된 AI 서비스의 등장에 따라 개발 비용을 절감하면서 자신의 요구 사항에 맞춘 AI를 쉽게 개발할 수 있게 되었으며, 이는 AI의 비즈니스 활용을 가속화하는 계기가 될 것으로 보임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1837호(2018. 3. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

소니, 사내 AI 인재 양성 위해 사용하기 쉬운 딥러닝 도구 개발.pdf



ž 외부에서 구하기 어려운 인공지능(AI) 응용 인력을 확보하기 위해 소니는 사내 직원들의 AI 응용 감각을 훈련시키기 위한 도구를 자체 개발하였음


Ø 기계학습을 비롯해 AI를 기존 비즈니스에 활용하기 위해 각 기업들은 AI 인재의 확보에 열을 올리고 있는데, 특히 중요하게 생각하는 인력은 자사의 제품 및 기업의 핵심 과제와 AI 기술 사이의 친화성을 적절하게 평가할 수 있는 AI 응용 인재


Ø 그러나 AI 기술을 자사 제품과 연계하려면 제품에 대해 정확히 이해하고 있어야 하고, 기업의 핵심 과제는 내부 기밀의 성격도 있어 외부로 공개되지 않아야 할 필요가 있는 만큼, AI 응용 인재는 본질적으로 외부에서 구하기 어렵다는 문제가 있음


Ø 이런 딜레마를 해결하기 위해 소니가 찾은 해결책은 사내 직원들이 딥러닝(Deep Learning)의 응용 감각을 연마할 수 있는 훈련 도구를 자체 개발하여 배포하는 것이었음


Ø 소니는 우선 2017 6월에 딥러닝 라이브러리인 Neural Network Libraries(NNL)을 오픈소스 소프트웨어로 공개하였음


<자료> Futurism


[그림 1] 소니의 딥러닝 라이브러리 NNL


Ø 이 라이브러리를 이용하면 기본적인 DNN(deep neural network) 이외에 RNN(recurrent neural network), GAN(generative adversarial network) 등 다양한 딥러닝 모델을 설계할 수 있음


Ø 개발된 모델은 C++ 언어의 소스 코드로 출력이 가능하며, 변환의 번거로움 없이 스마트폰을 비롯한 다양한 디바이스에 탑재할 수 있는 장점이 있음


Ø 이어 2017 8월에는 GUI 환경에서 NNL의 기능을 사용할 수 있는 통합 개발 도구 Neural Network Console(NNC)도 오픈소스로 공개했는데, 딥러닝 개발의 사실상 표준 언어인 파이선(Python)을 배우지 않아도 GUI를 통해 직관적인 개발이 가능하게 되어 있음


<자료> Futurism


[그림 2 NNL 이용 통합개발기구 NNC


ž NNL은 현재 소니 그룹 내에서 약 1천 명이 사용 중이며, AI 개발 경험이 없는 개발자가 NNL을 이용해 3개월 만에 제품 탑재가 가능한 인식 시스템을 개발한 사례도 있다고 함


Ø NNL은 원래 딥러닝 연구개발을 효율화 하려는 목적으로 소니의 R&D 팀이 사내에서 개발 한 라이브러리인데, 소니가 2010년경부터 기존의 기계학습 기술을 점차 딥러닝으로 대체하면서 개발자용 소프트웨어의 정비를 진행해왔음


Ø 소니 그룹의 NNL 사용자는 이미 1,000명 이상으로 확산되고 있다고 하며, 소니 그룹 내 다양한 사업분야에서 NNL NNC를 이용한 제품 개발 실적이 나오고 있다고 함


Ø 가령 2018 1월에 소니가 출시한 아이보(aibo) 로봇에 탑재된 이미지 인식 기능은 NNL을 이용해 개발된 것임


Ø 그 밖에 소니의 스마트폰 Xperia시리즈에 탑재하는 AR(증강현실) 사진 촬영 앱인 AR 이펙트와 블루투스 헤드셋인 Xperia Ear를 이용해 머리 움직임을 인식하는 헤드 제스처 인식 기능, 소니 부동산의 부동산 가격 추정 엔진 등의 개발에 이 도구들이 이용되었음


Ø 기계학습의 초보자도 개발을 쉽게 할 수 있도록 하기 위해, NNC는 다운로드 하여 사용하는 윈도우 버전 외에 GPU에 의한 학습이 가능한 클라우드 버전(오픈 베타)으로도 제공되고 있음


Ø 딥러닝 개발 프레임워크는 소니 외에도 이미 여러 기업이 OSS로 공개하고 있는데, 캘리포니아 대학 버클리 캠퍼스의 카페(Caffe)와 구글의 텐서플로우(TensorFlow), 프리퍼드 네트웍스(Preferred Network)s체이너(Chainer) 등이 대표적임


Ø 이들 타사의 개발 환경에 대해 소니는, 기계학습에 익숙한 사용자에게는 상당히 사용하기 쉬운 면이 있지만, 경험이 전혀 없는 초보자에게는 도구의 동작 환경을 갖추는 것 자체가 장벽일 정도로 어려운 면이 있다고 평하며, NNL NNC의 접근 용이성을 강조하고 있음


ž 소니는 사용하기 쉬운 AI 개발 도구가 더 혁신적인 AI 응용 사례를 만들어 낼 것이라 보고 있으며, 무료 공개를 통해 내부 인재 육성뿐 아니라 미래 인재 확보도 도모하고 있음


Ø 딥러닝의 도입을 저해하는 요인 중 하나로 그 작동 메커니즘을 알 수 없는 블랙박스 시스템을 제품과 서비스에 적용할 수는 없다는 기존의 개발 관행이 거론되기도 함


Ø 가령 기존의 인식 기술은 대상을 상세하게 분석하고 표현력이 높은 특징량과 판별이 정확한 감식기를 세밀하게 조정하면서 정확도를 향상시켜 개발하는 것이 일반적이었음


Ø 이에 비해 딥러닝의 개발에서는 학습시키는 교사 데이터의 양과 질이 학습을 마친 모델의 성능을 크게 좌우하는, 즉 데이터 수집 자체가 개발 완성도와 직결되는 방식임


Ø 양자의 개발 스타일에 차이가 있기 때문에, 기존 기계학습 기술에 익숙한 전문가의 경우 과거의 지식을 버리고 데이터 기반 방식으로 전환하는 것에 심리적 저항이 많다고 함


Ø 이러한 상황 때문에 소니 측은 오히려 기계학습 경험이 없는 젊은 개발자들이 딥러닝의 개발 사상에 거부감이 없다고 보고 있으며, NNL NNC를 젊은 층이 많이 활용해 줄 것을 기대하고 있음


Ø 소니는 직원들에게 우선은 자신의 업무과 직결되지 않더라도 가령 간단한 이미지 인식 모델의 개발부터 시작해 효과를 직접 경험해 볼 것을 권고하고 있는데, 어느 정도 숙달되면 자신의 업무에 적용할 아이디어를 떠올릴 수 있게 될 것으로 보기 때문


Ø 소니가 NNL NNC를 오픈소스로 공개한 배경에는 내부 인재 육성뿐 아니라 미래 인재 확보의 목적도 있음


Ø 지금까지 소니는 자신들의 AI 관련 연구개발 성과를 대외적으로 어필해 오지 않았지만, 이번 도구의 공개를 계기로 다시 한번 소니의 기술력을 주목하게 함으로써 향후 딥러닝을 하고 싶어 하는 인재들이 소니를 선택하게 하는 계기로 만들고자 하는 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1836호(2018. 3. 7. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI를 이용한 지진 감지 시스템, 기존 시스템보다 17배 이상 감지.pdf



ž 하버드 대학의 티보 페롤 교수 연구팀은 인공지능(AI)을 이용한 지진 감지 및 위치 확인 시스템 ConvNetQuake(컨브넷퀘이크)를 개발하였음


Ø 연구팀에 따르면 지진은 사람들이 생각하는 것 보다 훨씬 더 일상적으로 일어나는 현상으로, 남부 캘리포니아 지역만 해도 매년 약 1만 번의 지진이 발생하고 있음


Ø 오클라호마가 속한 미국 중남부의 경우 그보다 더 많은 지진이 해마다 발생하는데, 석유 및 가스 개발업체들이 산업 폐수를 지하 깊숙이 주입하는 것이 원인으로 추정되고 있음


Ø 이들 지진의 대부분은 사람들이 느끼지 못하지만 그런 수많은 지진을 이해하는 것은 아주 중요한데, 미세한 지진에 대한 정보를 가지고 있으면 지진을 일으키는 원인이 무엇인지 결정할 수 있으며, 어쩌면 지진을 막을 수 있는 방안을 마련 할 수도 있을 것이기 때문


Ø 티보 페롤이 이끄는 연구팀은 모든 규모의 지진 발생을 예측할 수 있는 방법을 고안함으로써 지역사회가 지진에 대해 보다 잘 대처할 수 있게 하기 위해 연구를 시작했다고 함


Ø 기존의 시스템이 체감할 수 없을 정도로 경미한 지진의 감지에 어려움을 겪고 있는 문제를 해결하기 위해 모든 지진을 감지하기 위해 ConvNetQuake라는 새로운 시스템을 개발하게 되었다는 설명


<자료> Futurism


[그림 1] 산업 폐수에 의해 발생하는 지진


ž ConvNetQuake는 진동기록(seismogram, 사이즈모그램)을 이용해 지진을 감지하고 발생 지점을 식별하는 최초의 신경망으로 기존 시스템보다 17배나 더 많이 감지한다고 함



Ø 연구팀이 지진 감지에 특화 시킨 알고리즘은 사이즈모그램이라 알려진 지반 운동을 자세히 모니터링 할 수 있으며, 지반의 움직임이 단순한 노이즈인지 아니면 지진인지를 결정할 수 있음


<자료> Futurism

[그림 1] 산업 폐수에 의해 발생하는 지진

Ø 지금까지 아주 작은 지진의 감지가 어려웠던 것은 바로 이 노이즈 때문이었는데, 연구팀에 따르면 ConvNetQuake는 노이즈와 지진을 명확히 구분할 수 있다고 함


Ø 연구팀은 이 신경망을 훈련시키고 테스트하기 위해 오클라호마의 지반 운동 기록을 사용했는데, 오클라호마 지리 연감에 기록된 것보다 17배나 많이 지진을 감지하였음



Ø ConvNetQuake가 기존 지진 감지 방법보다 우월하다고 쳐도 이 시스템은 단지 지진을 감지만 할 수 있으며 예측하지 못하는 한계가 있는데, 예측할 수 있는 방법이 고안되기 전까지는 초기 감지만이 지진이 야기하는 대재난을 막을 수 있는 최선의 희망이라고 함


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1834호(2018. 2. 21. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

기계학습 기반 패션 스타일 추천 서비스 &lsquo;치키시모(Chicisimo)&rsquo;.pdf



ž 전자상거래를 통한 미국의 의류 판매 매출이 2022 1,230억 달러에 이를 것으로 예측되는 가운데, 급성장 중인 패션 추천 앱 치키시모(Chicisimo)에 큰 관심이 쏠리고 있음


Ø 구글이 이미지 검색에 스타일 아이디어(Style Ideas)라는 기능을 추가하는 등 최근 들어 아마존닷컴과 구글은 패션 및 옷 입기 추천 서비스 등에 적극 진출하고 있음


<자료> Android Community


[그림 1] 구글 이미지의 스타일 아이디어


Ø 이는 '옷 입기'가 사람들이 매일 일상적으로 하는 일이기 때문에 관련 서비스로 고정 고객을 확보할 수 있고, 사용자로부터 많은 데이터를 얻을 수 있기 때문으로 알려져 있음


Ø 이런 흐름을 앞서 시작한 서비스로 치키시모(Chicisimo)가 있는데, 사용자가 자신의 패션 코디 사진을 게시하고 다른 사람들의 평가를 받거나, 무엇을 입어야 할 지에 대한 아이디어를 다른 사람 혹은 인공지능(AI)으로부터 받을 수 있도록 한 앱임


ž 치키시모는 2010년에 미국에서 설립되어 처음에는 블로그로 시작된 서비스지만 이후 앱으로 출시되었으며, 2018년 초 현재 약 400만 명의 이용자를 보유하고 있음


Ø 사람이 다른 사람에게 패션 제안을 할 때는 스타일이라는 미묘한 요소가 관여하는데, 사람은 이런 요소들을 이해하고 이미 알고 있는 옷 입기 방식에서 새로운 제안을 할 수 있지만, AI의 경우 우선 스타일을 이해시키는 것으로부터 시작해야 함


Ø 치키시모의 개발팀은 이전에 음악 분야 등에서 을 주제로 한 프로젝트에 기계학습을 도입한 경험이 있으며, 이 경험을 통해 컴퓨터가 을 이해하면 보다 관련성 있는 의미 있는 콘텐츠를 제공 할 수 있어 온라인 패션이 크게 바뀔 것이라 생각했다고 함


Ø 치키시모의 CEO인 가브리엘 알다미즈는 최근 개발팀의 작업이 어떻게 진행되었는지를 공개했는데, 개발팀이 가장 주력한 것은 기계학습을 위해 올바른 데이터 세트를 만드는 것이었으며 이를 토대로 '모바일 앱' '데이터 플랫폼'이라는 핵심 자산을 개발하였음


Ø 치키시모는 현재 머천다이징 업무 인원 4, 엔지니어 4명 등 총 8명으로 구성된 작은 기업이지만, 자체 개발한 AI 기술을 토대로 구글, 아마존 등과 경쟁하며 현재 전세계 400만 명의 이용자를 확보하는 성과를 거두고 있음


ž 치키시모는 3단계 개발 과정을 거쳤는데, 1단계는 사람들이 자신의 욕구를 표현하는 앱을 개발하되 최대한 빨리 기능을 배우도록 작은 반복행위에 초점을 맞추는 것이었음


Ø 과거의 앱 개발 경험을 통해 개발팀은 사람들에게 앱을 사용해 보게 하는 것은 쉽지만 계속 사용하도록 붙잡아 두는 것(retention)은 매우 어렵다는 것을 배웠으며, 문제 해결을 위해 단순한 기능의 반복에 초점을 맞춰 이용자가 가능한 빨리 배울 수 있게 하였음



Ø 치키시모는 단 하나의 핵심 기능 만을 가진 매우 초기의 알파 버전을 치키시모가 아닌 다른 이름으로, 미국이 아닌 다른 나라에서 런칭하였음


Ø 이 초기 버전은 심지어 사용자가 사진을 업로드 하는 기능도 없었지만 이를 통해 개발팀은 실제 데이터 처리를 반복할 수 있었고 다량의 고품질 데이터를 확보할 수 있었다고 함


<자료> wwwhats new


[그림 2] 치키시모 스페인어 버전(2014)

Ø 이후 적정 시점에 제대로 된 치키시모 앱을 런칭하며 이전 알파 버전은 앱스토어에서 삭제하였는데, 이용자들이 가장 중요한 기능의 이용 방법을 습득한 상태이기 때문에 곧바로 치키시모를 사용하는 데 큰 무리가 없었음


ž 치키시모는 사람들이 잔류(retention)를 결정하는 진짜 이유가 무엇인지, 콘텐츠와 사람을 매치하는 데 필요한 알고리즘이 무엇인지 이해하는 데 오랜 시간을 투자했다고 함


Ø 가브리엘 알다미즈 CEO에 따르면 치키시모는 고객의 리텐션을 높이는 데 두 가지 기법의 도움을 받았는데, 우선 행동학적 코호트(behavioral cohorts)를 이용해 리텐션을 높이는 요소를 발견하였음


Ø 코호트는 통계적으로 동일한 특성이나 행동 양식을 공유하는 집단을 의미하는데, 개발팀은 사용자가 어떤 행동을 했는가 뿐만 아니라 어떤 가치를 느꼈는가에 대해서도 믹스패널(Mixpanel)을 이용하여 코호트 분석을 실행하였음


Ø 이는 치키시모와 같은 서비스에서 개념화하기 매우 어려운 일이었지만, 측정 가능한 가치를 찾아내기 위해 분석-테스트-개선의 과정을 반복했다고 하며, 리텐션에 악영향을 미치는 요소들도 식별하여 제거해 나갔다고 함


Ø 리텐션을 결정하는 요소로 식별한 다음 도움을 받은 두 번째 기법은, 온보딩 프로세스(on-boarding process)를 새롭게 사고하는 것이었음


Ø 통상 온보딩 프로세스는 새롭게 조직에 합류한 사람들이 잘 적응할 수 있도록 지원하는 여러 프로그램을 말하는데, 치키시모는 신규 회원이 가능한 빨리 앱의 가치를 발견하도록 하여 고객을 잃어버리지 않게 해주는 프로세스로 재정의하였음


Ø 만일 신규 회원이 그들의 첫 접속에서 처음 7분 동안 어떤 액션을 취하지 않는다면 그들은 돌아오지 않는다는 가정 하에, 7분 안에 무언가 발생하도록 앱의 경험에 계속 변화를 주었다고 함


Ø 또한 서로 다른 유형의 사람들을 대상으로 수 많은 사용자 테스트를 실행하고, 그들이 리텐션 요소를 어떻게 인지하는지 혹은 인지하지 못하는지를 관찰했다고 함


ž 치키시모 개발의 2단계는 사람들의 패션 욕구를 학습하는 데이터 플랫폼을 구축하는 것으로, 사람들의 취향을 이해하여 더 나은 코디 제안을 하는 것이 목표임



Ø 적절한 콘텐츠를 적절한 때에 전달할 수 있다면 간단한 기능이라도 사람들의 감탄을 이끌어 낼 수 있지만, 사실 이런 기능을 구현하기란 매우 어려운 일임


Ø 치키시모의 콘텐츠는 100% 모두 사용자들이 생성한 것(UCC)이어서 몇 가지 문제점을 낳게 되는데, 시스템은 다양한 유형의 콘텐츠를 자동으로 분류할 수 있어야 하며, 적절한 인센티브를 구성해야 하고, 콘텐츠와 욕구의 매칭 방법을 이해해야 함


Ø 실제 치키시모는 처음에 수 많은 데이터가 수집되자 크게 고무되었다가 이내 그 데이터들이 행위를 유발하는 데 혼란스런 데이터는 악몽임을 알게 되었다고 함


Ø 이후 데이터를 일부 구조화 할 것을 결정했으며, 자신들이 소셜 패션 그래프(Social Fashion Graph)라 부르는 도구의 개발을 완료함으로써 양질의 데이터 세트를 만들어 낼 수 있게 되었음


<자료> Medium


[그림 3] 치키시모의 소셜 패션 그래프


Ø 이 도구로 생성된 그래프는 욕구·옷 입기·사람이라는 세 요소가 어떻게 상호 관련성을 갖는지 간결하게 시각화해 주는 것으로, 치키시모의 데이터 플랫폼을 구축하는데 도움을 주었으며 양질의 데이터 세트를 만들어 앱을 학습시키는 데도 도움을 주었다고 함


ž 개발팀에 따르면, 옷의 코디는 음악의 재생 목록과 같은 것으로, 여러 옷가지가 함께 소비되었을 때 의미를 갖게 되는 패션 상품들의 조합이라 할 수 있음


Ø 소셜 패션 그래프를 적용해도 여전히 데이터에 노이즈가 존재하는데, 사람들은 동일한 욕구를 여러 방식으로 표현하기도 하고 반대로 서로 다른 옷 입기 방식이지만 근본 욕구는 같은 경우도 있는데, 이 때문에 콘텐츠와 욕구의 연결을 더욱 어려운 일이 됨


Ø 치키시모는 코디 컨셉을 수집하고, 여러 다양한 방식 중에 가치가 동일한 것들을 찾아내어 동일한 욕구를 다양하게 표현해 줄 수 있는 시스템을 구축함으로써, 다양성을 구현하는 가운데서 구조화를 달성하였음


Ø 이런 과정을 거쳐 치키시모는 전세계인의 공통 고민인 오늘 뭐 입지라는 욕구에 발생하는 상황을 목록화하였으며, 이를 토대로 데이터 세트를 튜닝 하였고 더 나은 서비스 개선이 이루어지도록 하였음


Ø 개발팀에 따르면 사람들이 자유롭게 표현하도록 허용하더라도 그것을 처리할 적절한 시스템이 뒤를 

받쳐준다면, 데이터의 구조화로 제어력을 잃지 않으면서 비구조화된 데이터를 장려하여 지식과 유연성을 확보할 수 있음


Ø 개발팀이 최근 하고 있는 작업은 소셜 패션 그래프에 네 번째 요소인 쇼핑 가능한 상품(shoppable product)을 추가하는 것으로, 입고 있는 옷과 어울리는 상품을 자동적으로 매칭하여 다음 번에 무엇을 구매할 지 도와주는 시스템을 만들고 있음


ž 치키시모 개발의 3단계는 알고리즘을 개발하는 것인데, 음악 서비스에서 추천 기능과 달리 패션 관련 서비스에서 추천 기능은 구현에 몇 가지 도전 과제가 있음


Ø 음악 서비스의 경우, 이용자가 주어진 어떤 노래를 좋아하는지 알기는 쉬운 일이고, 그 노래 다음에 어떤 노래를 듣는지를 파악하는 것도 쉬운 일이며, 따라서 그 노래들 사이의 상호관계를 파악할 수 있고, 이 정보를 통해 많은 일을 할 수 있음


Ø 그러나 패션에서는 고유한 문제가 발생하는데 우선 가지고 있는 옷과 쇼핑할 상품들을 매칭하는 쉬운 방법이 없는 것이 문제로, 그 이유는 사람들은 옷장 속에 가지고 있는 대부분의 옷들과 같거나 비슷한 옷을 사려는 게 아니라 어울리는 옷을 사려고 하기 때문


Ø 또 다른 어려움은 패션 산업은 사람들이 옷을 묘사하는 방법을 표준화하지 않았기 때문에 전자상거래와 그 이용자들 사이에 큰 단절이 존재한다는 것이며, 스타일이라는 것이 기계가 이해하고 분류하기에는 복잡미묘하다는 사실임


<자료> Medium


[그림 4] 치키시모 앱을 이용한 패션 코디 추천 받기 (이미지 클릭)


ž 딥러닝을 이용한 추천 알고리즘은 현재 더욱 더 많은 연구자에 의해 개선되고 있기 때문에 아주 개인적인 스타일이라도 시스템이 이해하게 될 날이 조만간 도래할 것으로 보임



Ø 이런 상황은 딥러닝의 등장에 의해 급변하고 있는데, 올바른 데이터 세트를 가지고 있으면 옷 입기 추천과 관련된 특정한 유스 케이스에 초점을 맞출 수 있고, 데이터를 수집하고 정제하는데 시간을 쏟는 대신 알고리즘을 통해 가치 전달에 초점을 맞출 수 있기 때문


Ø 옷 입기는 날마다 해야 하는 일이기에, 의류 분야가 e-커머스 사이트들이 소비자들의 관심을 끌어 쇼핑을 유도하고, 그들의 데이터를 확보하는데 중요한 자산이 된다는 것은 실적으로 입증되고 있음


Ø 구글이 스타일 아이디어를 발표하자 같은 달에 아마존은 카메라가 달린 인공지능 스피커를 이용한 알렉사 에코 룩(Alexa Echo Look)을 발표해 옷 코디 추천을 시작했으며, 알리바바 역시 AI 개인 스타일리스트를 통해 기록적인 광군제 매출을 기록한 바 있음


Ø 치키시모는 현재의 패션 앱이 2003년 무렵의 음악 서비스와 비슷한 상태에 있다고 보는데, 10여 년이 지나며 음악 서비스가 개별 이용자의 취향에 맞는 음악을 추천하게 된 것처럼, 10년 후에는 옷 입기 추천 앱이 어디까지 발전해 있을 지 아무도 모른다는 것


Ø 10년 후에도 오늘 뭐 입지라는 고민과 어떤 옷을 새로 사야 하나라는 고민은 사라지지 않을 것이나, 고민의 정도는 아마도 지금보다는 훨씬 덜할 것으로 보임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1833호(2018. 2. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI로 AI를 개발하는 기술의 진전, 성당에서 시장으로 나오는 AI.pdf



[ 요 약 ]


현재의 범용 신경망이 제공하는 기능이 불충분하다고 느낄 경우 특정 용도의 고도 신경망을 개발할 필요성이 대두되나신경망을 새롭게 최적화하는 작업을 수행할 수 있는 AI 연구자는 극소수이고 개발 기간도 오래 걸리는 문제가 있음최근 구글은 사람이 아닌 AI가 신경망 고도화 작업을 수행하도록 하는 기술을 클라우드 서비스 형태로 공개하였는데누구나 쉽게 특정 용도의 AI를 개발할 수 있게 됨에 따라 더욱 혁신적인 AI가 출현할 가능성이 높아지고 있음


[ 본 문 ] 


ž 미국의 오크 릿지 국립 연구소(Oak Ridge National Laboratory)는 기존 범용 신경망을 이용한 연구에 한계가 있음을 느끼고 과학 연구 전용의 고도 신경망 개발에 나서게 있음

Ø 오크 릿지 연구소는 미국 에너지부 산하 기관으로 과학의 수수께끼 규명을 목표로 하고 있는데, 세계 최고 수준의 수퍼 컴퓨터인 타이탄(Titan)을 운용하는 곳으로도 유명함



<자료> Wikimedia Commons

[그림 1] 수퍼 컴퓨터 타이탄


Ø 타이탄은 크레이(Cray) 사가 개발했으며, 18,688개 노드로 구성된 병렬 머신으로 각 노드에 CPU(AMD 옵테론) GPU(엔비디아 케플러)를 탑재한 세계 최대 규모의 수퍼 컴퓨터임


Ø 이 연구소는 몇 년 전부터 최근 급속히 발전한 이미지 인식과 음성 인식 신경망을 이용한 연구를 진행해 왔으나, 상용화된 범용 신경망을 기초과학 연구에 적용한 결과 기대한 만큼의 성과는 얻을 수 없었다고 함


Ø 그 이유는 과학 연구에서 다루는 데이터의 특수성과 신경망 교육에 사용할 수 있는 데이터의 수가 제한되어 있기 때문이었으며, 따라서 오크 리지 연구소는 과학 연구를 위한 전용 신경망 개발의 필요성에 직면하게 되었음


Ø 이에 따라 오크 릿지 연구소는 타이탄을 이용해 과학 연구에 적합한 고정밀 신경망을 개발하게 되었으며, 현재 이를 활용해 물질과학 및 입자 물리학의 연구를 진행하고 있음


ž 오크 릿지 연구소가 과학 전용의 신경망 개발에 있어 수퍼 컴퓨터를 이용한 부분은 신경망 최적화 단계로, 이전까지 인간이 담당하던 작업을 AI를 이용해 실행한 것이 특징


Ø 연구진은 특정 데이터 세트에 대해 최적의 신경망이 존재한다는 전제에서 그 구조를 탐구 해 왔는데, 이 연구는 소위 하이퍼 파라미터 최적화(Hyper-Parameter Optimization, HPO)의 문제로 귀결됨


Ø 하이퍼 파라미터는 신경망의 기본 모델, 즉 신경망 각층의 종류와 그 순서, 네트워크의 층수 등을 의미하며, HPO는 이들 기본 요소를 조합하여 네트워크를 최적화하는 작업임


Ø 달리 표현하면, 대부분의 기계학습 알고리즘에서는 연구자들이 지정해 두어야 할 설정들이 많은데 이런 다양한 튜닝 옵션들을 하이퍼 파라미터라 부르며, 성능을 최적화하거나 편향과 분산 사이의 균형을 맞출 때 알고리즘을 조절하기 위해 HPO를 수행함


Ø 성능 최적화를 위해 하이퍼 파라미터를 튜닝 하는 것은 연구자들 사이에서는 예술이라 불릴 만큼 어렵고 정교한 작업이며, 어떤 데이터 세트에서 최고의 성능을 보장하는 쉽고 빠른 튜닝 작업 방법은 없는 것으로 알려져 있음


<자료> IBM

[그림 2] 하이퍼 파라미터 최적화


Ø 하이퍼 파라미터 최적화는 기존 딥러닝 소프트웨어(Caffe, Torch, Theano )를 사용하여 수작업으로 실시되며, 표준 소프트웨어를 개조하여 신경망 각 층의 종류와 순서, 네트워크 층수 등 신경망의 토폴로지(망 구성)를 결정하게 됨



Ø 그 다음으로는 생성된 신경망을 교육하고 그 성능을 검증하는데, 이 과정을 여러 번 반복하여 최적의 신경망의 형태를 얻게 되며, 이 과정은 연구자가 경험과 감에 전적으로 의존하여 진행되기 때문에 통상 새로운 신경망을 생성하는 데 몇 달씩 소요되기도 함


Ø 그런데 오크 릿지 연구소는 이 튜닝 작업을 AI로 설계하고 이를 수퍼 컴퓨터로 실행함으로써 큰 ​​성과를 올렸는데, 즉 특정 연구에 최적화 된 신경망을 연구자의 수작업이 아니라 AI로 생성시킨 것


Ø 이 방식을 통해 오크 릿지 연구소는 과학연구 전용 신경망을 단 몇 시간 만에 생성하는 데 성공했으며, 이렇게 AI가 만든 신경망이 현재 중성미립자(Neutrino) 연구에 크게 기여하고 있다고 함


ž 오크 릿지 연구소가 신경망 생성에 이용한 AI MENNDL(Multinode Evolutionary Neural Networks for Deep Learning)이라 부르는데, 생물이 진화하는 방식을 모방한 것이라고 함


Ø 사람이 HPO를 하는 것과 마찬가지로, MENNDL 우선 특정 데이터 세트, 가령 중성미립자 실험 데이터의 처리에 특화된 신경망을 생성한 다음 신경망을 교육시키고 그 성능을 평가하며, 그 평가 결과에 따라 신경망 구조를 변화시킴으로써 성능 향상을 도모함


Ø 이 과정을 반복하여 고급 신경망을 생성하게 되는데, 이 기법은 생물의 DNA가 배합과 변이를 반복하며 진화하는 방식을 모방하고 있기 때문에 진화적 알고리즘(Evolutionary Algorithm)이라 불림


<자료> Oak Ridge National Laboratory


[그림 3] MENNDL의 진화적 알고리즘


Ø MENNDL은 생성된 신경망의 교육과 성능 평가를 타이탄 수퍼 컴퓨터의 노드를 이용해 수행하는데, 마스터(master) 노드에서 진화의 프로세스를 실행해 신경망을 생성하면, 워커(worker) 노드는 생성된 네트워크를 교육하고 그 성능을 평가하게 됨


Ø 딥러닝 알고리즘을 포함하고 있는 수정 가능한 소프트웨어 프레임워크로는 카페(caffe) 를 사용하여 워커 노드에서 대규모 병렬 실행을 하며, 마스터 노드와 워커 노드 사이의 통신은 Message Passing Interface라는 프로토콜을 사용하고 있음


ž MENNDL을 활용하고 있는 것은 오크 릿지 연구소뿐 만이 아니며, 현재 여러 연구기관에서 의료 연구나 우주 탄생 연구 등에 적합한 신경망 생성에 활용하고 있음


Ø 소아암 연구로 유명한 세인트 주드 소아 병원(St. Jude Children 's Research Hospital)MENNDL을 이용해 생성한 신경망을 의료 연구에 사용하고 있는데, 3D 전자 현미경으로 촬영한 이미지에서 미토콘드리아를 식별하는 신경망을 생성하였음


Ø 미토콘드리아는 발견할 수 있기는 하지만 존재하는 위치가 다양하며 모양과 크기가 달라 사람이 식별하기는 어렵기 때문에, 세인트 주드 병원은 MENNDL을 이용해 미토콘드리아를 식별하기 위한 의료 전용 신경망을 생성한 것임


Ø 페르미 국립 가속기 연구소(Fermi National Accelerator Laboratory) 역시 MENNDL을 이용해 중성미립자 검출을 위한 전용 신경망을 생성하였음


<자료> Fermi National Accelerator Laboratory


[그림 4] 페르미 연구소의 뉴트리노 관측기기


Ø 중성미립자는 입자 중에서 페르미온(Fermion)으로 분류되면 질량은 매우 작고 다른 입자와 상호 작용이 거의 없으며 투과성이 높아서 감지해 내기가 매우 어려움


Ø 중성미립자 연구는 초기 우주의 규명과 물질 구조의 규명으로 이어질 것으로 기대되어 각국에서 경쟁적으로 연구가 진행되고 있는 분야임


Ø 페르미 연구소는 관측 장치를 개발해 중성미립자를 대량으로 생성한 후 그 상호작용을 연구하고 있는데, 중성미립자 검출에 특화된 구조를 가진 신경망을 이용하고 있음


Ø 신경망은 관측 사진을 분석해 중성미립자가 장치 내 어디에서 상호작용을 일으킨 것인지를 정확히 파악하는데, 사진에는 다른 입자들이 일으킨 상호작용도 무수히 기록되기 때문에 일반적인 신경망을 통해 중성미립자를 골라 내는 것은 매우 어려운 일이었음


Ø 그러나 MENNDL을 통해 전용 신경망을 만들 수 있게 됨에 따라, 아주 드물게 발생하는 중성미립자의 상호 작용을 정밀하게 식별할 수 있게 된 것임


Ø 페르미 연구소에서는 MENNDL 50만 종류의 신경망을 생성하고 이를 교육한 후 성능을 평가했는데, 교육 데이터로 중성미립자의 상호작용을 기록한 이미지 80만 장을 사용했으며, 평가를 통해 가장 판정이 정확한 신경망을 선정해 연구에 활용하고 있음


Ø 이러한 일련의 과정은 오크 릿지 연구소의 경우와 마찬가지로 타이탄의 18,688개 노드에서 병렬로 실행되었는데, 과학 전용 신경망의 개발과 이를 이용한 과학 연구는 AI 수퍼 컴퓨터의 도입으로 비로소 가능해졌다고도 볼 수 있음


ž 한편 특정 용도의 신경망을 AI로 생성하는 것이 수퍼 컴퓨터 이용이 가능한 대형 연구소에서만 가능한 것은 아니며 일반 기업도 가능해졌는데 여기에는 구글이 기여한 바가 큼


Ø 구글은 이미 AI를 이용해 고급 기계학습 알고리즘을 생성하는 오토(Auto)ML 기술을 사내 에서 자체적으로 이용하고 있었는데, 최근 이 기술을 클라우드 오토ML이라는 클라우드 서비스 형태로 공개하였음


Ø 오크 릿지 연구소의 전용 AI 개발은 세계 최고급의 수퍼 컴퓨터가 있기에 가능한 측면이 있었고, 그러한 고도의 컴퓨팅 자원을 보통의 기업이 갖추기는 현실적으로 어려운 것인데, 구글이 클라우드 오토ML을 공개함에 따라 전용 AI 개발에 대한 접근성이 높아진 것임


Ø 구글이 오토ML을 개발하고 또 공개한 이유는 오크 릿지 연구소의 경우와 동일한데, 일반 AI가 다양한 기능이 있기는 하지만 고급 판정 능력이 필요한 특정 업무에는 사용할 수 없어 전용 AI를 개발해야 하며, 이 작업을 할 수 있는 AI 연구자는 극소수이기 때문


Ø 아마존이나 마이크로소프트와 마찬가지로도 이미 구글은 클라우드 ML 엔진이라는 서비스를 통해 일반 AI를 클라우드로 제공하고 있었으며, 이 서비스를 이용하는 기업들은 구글이 제공하는 클라우드 비전 API를 통해 이미지 인식 처리를 실행할 수 있음


Ø 클라우드 비전 API를 이용하며 쉽게 사진을 분류할 수 있는데, 가령 하늘의 구름 사진을 입력하면 시스템은 skycloud라고 정확히 분석 결과를 보여주며, 인물 사진을 입력하면 사람의 얼굴 형태임을 인지하고 그 표정을 분류하는 기능도 제공하고 있음


Ø 그러나 기상 전문가들에게는 이러한 클라우드 비전 API를 이용한 이미지 판정 기능이 충분하지 않은데, skycloud 정도만을 판정하는 기능으로는 권운(cirrus), 권적운(Cumulus humilis) 등과 같이 구름의 종류를 판정할 수 없기 때문


<자료> Gigazine


[그림 5] 기상 전용 AI의 구름 유형 식별


Ø 따라서 구름의 종류를 판별 할 수 있는 기계학습 알고리즘을 개발하는 것이 요구되지만, 이 작업을 할 수 있는 연구자의 수는 많지 않으며 개발 작업에도 많은 기간이 소요되는 문제점이 있었으며, 이러한 수요에 부응해 구글이 내놓은 것이 클라우드 오토ML


Ø 클라우드 오토ML을 이용하면 AI가 연구자 대신 전용 AI를 짧은 시간 안에 개발해 주기 때문에, 기상 전문가들은 구름의 종류를 판정 할 수 있는 기계학습 알고리즘을 클라우드 오토ML을 이용해 자동으로 생성할 수 있음


ž 구글에 따르면 클라우드 오토ML로 생성한 알고리즘의 인식률은 일반적인 신경망보다 정확도가 높아 활용가치가 더 높으며, 이미 다양한 분야에서 성공 사례가 나오고 있음


Ø 오토ML을 이용하면 우선 신경망 개발 기간을 크게 단축 할 수 있는 것이 장점으로, 파일럿 모델이라면 몇 분 안에 가능하고 프로덕션 모델이라도 하루 정도면 개발이 가능한데, 이렇게 금세 만든 신경망이라도 인식률은 기존 일반 AI보다 높다고 함


Ø 구글은 클라우드 오토ML을 비즈니스에 응용한 사례도 공개하고 있는데, 패션 브랜드인 어번 아웃피터(Urban Outfitters)는 상품에 태그를 붙이는 과정을 클라우드 오토ML 서비스를 이용해 자동화하고 있음



Ø 어번 아웃피터는 상품에 부여된 태그를 키 값으로 사용해 소비자들에게 제품을 추천하고 있으며, 상품 검색과 제품 필터링에서도 태그가 사용하는데, 이 태깅 작업에 클라우드 오토ML 을 이용해 상품 이미지를 분석하고 제품의 특징량을 추출하고 있음


Ø 가령 옷을 분류할 때 클라우드 오토ML로 만든 알고리즘은 가슴 부위의 형태에 따라 상품을 V-, 스쿱(Scoop) , 크루(Crew) 등으로 판정하는데, 이는 알고리즘이 디자인 패턴과 목선 등을 키 값으로 태그를 생성할 수 있기 때문


<자료> Google Cloud Platform

[그림 6] 어번 아웃피터의 패션 전용 AI


Ø 동물의 생태를 보호하는 활동을 전개하고 있는 국제 환경보호단체 Zoological Society of London(ZSL) 역시 클라우드 오토ML을 적극 활용하고 있음


Ø 이 단체는 동물의 생태를 이해하기 위해 서식지에 카메라를 설치하고 동물의 행동을 관찰하고 있는데, 범용 알고리즘이 사진을 보고 동물의 종류를 정확히 판정할 수 없기 때문에 사람이 이 과정에 관여하다 보니 태기 작업에 통상 9개월이 소요되었음


Ø 9개월이 지나고 나면 이미 야생동물의 이동이 크게 이루어지고 난 다음이기 때문에 보호 전략을 세워봐야 무용지물인 경우가 많았고, 밀렵꾼에 대한 대응도 뒷북이기 일쑤였는데, ZSL은 이 과정을 클라우드 오토ML을 이용해 자동화함으로써 문제를 해결하였음


Ø 9개월이 걸리던 태깅 작업을 순식간에, 또한 정확하게 처리할 수 있게 됨에 따라 ZSL은은 효과적인 동물보호 활동을 되었으며, 운영 비용 또한 크게 낮출 수 있게 되었는데, 단체 내에 AI 전문가 없이도 클라우드 오토ML 이용을 통해 이 모든 것이 가능하게 된 것임



ž AI를 만드는 AI의 이용 접근성이 높아짐에 따라 올해는 특정 업무 전용의 고급 AI 개발이 급증할 것으로 예상되며, AI의 개발의 대중화로 획기적인 AI가 출현할 가능성이 높음


Ø 에릭 레이먼드는 1997성당과 시장이란 글을 통해 중세시대 소수 성직자들이 지식을 독점한 것처럼 소수의 프로그래머들 소스코드를 독점해 프로그램을 개발하는 데서 벗어나 시장처럼 여러 사람이 모여 오픈소스로 공동 개발하는 것이 더 우월함을 주장한 바 있음


<자료> Network World

[그림 7] AI의 민주화


Ø 구글은 클라우드 오토ML 서비스를 공개하며 AI의 민주화를 기치로 내걸었는데, 여기에는 누구나 고도의 AI를 용이하게 개발할 수 있는 환경을 제공함으로써 소수가 개발할 때보다 훨씬 획기적인 AI가 개발되는 환경을 조성하겠다는 의미가 내포되어 있음


Ø 물론 구글의 클라우드 오토ML 서비스는 이제 막 시작된 것이고, 현재는 이미지 인식(Convolutional Neural Network) 관련 AI만 개발할 수 있는 한계가 있어 클라우드 오토ML을 통해 만든 신경망이 필요한 수준의 기능을 제공해주지 못할 수 있음


Ø 그러나 향후에는 음성 인식(Recurrent Neural Network) 관련 AI를 개발할 수 있는 기능도 제공될 것으로 예상되며, AI를 개발하는 AI의 기술이 발전할수록 클라우드 오토ML로 생성하는 신경망은 보다 고도화되며 동시에 보다 만들기 쉬워질 것임


Ø 그 시점이 도래한다면 AI의 민주화라는 구글의 비전이 현실화될 수 있을 것이며, 현재의 모바일 앱 개발처럼 수 많은 사람이 AI의 개발과 교육에 직접 참여하고 협업하는 과정에서 AI는 질적 도약을 이뤄낼 수 있을 것임


Ø 누구나 자신에게 필요한 AI를 누구나 개발할 수 있는 환경이 도래함에 따라 올해는 업무에 특화된 AI 알고리즘 개발이 확산될 것으로 예상되며, 더 나은 AI가 개발되고 확산되는 과정을 통해 인공지능은 우리 삶에 보다 급격히 접목되어 나갈 수 있을 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1833호(2018. 2. 14. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

인도 연구팀, 딥러닝을 이용해 AI에 &lsquo;풍자&rsquo;를 이해시키는 연구 진행.pdf



ž 인도 파트나(Patna) 공과대학 학장인 Pushpak Bhattacharyya는 딥러닝을 통해 인터넷 상에서 반어적(아이러니) 표현의 의견과 악의적 발언을 검출하는 연구를 진행하고 있음


Ø 부정적 내용을 긍정적인 표현에 담아 우회적으로 전달하는 풍자(Sarcasm) 는 말 그대로의 의미와 속뜻이 다르기 때문에 말하는 사람의 감정이나 상황 맥락을 이해하지 못하는 컴퓨터는 이해할 수 없는 것으로 알려져 왔음


Ø 그러나 Bhattacharyya 교수팀은 대량의 텍스트 데이터를 딥러닝을 통해 분석하고, 말과 의미의 관계성에서 문장에 내포된 풍자를 컴퓨터가 파악하게 하는 연구를 진행 중이며, 자신의 연구팀 외에 언어학자, 심리학자와 공동으로 작업을 진행 중


Ø Bhattacharyya 교수는 풍자나 아이러니 분석 연구가 국가 원수, 정치인, 유명 연예인, 기업 등 세간의 평판을 신경 써야 하는 사람들에게 도움을 줄 수 있을 것이라 말하고 있음


Ø 이들은 주로 글 쓴 사람의 감정 분석을 통해 트위터와 같은 소셜 미디어에서 자신들의 평판을 체크하고 있는데, Bhattacharyya에 따르면 풍자야말로 사람의 감정의 움직임을 명확히 보여 줌에도 기존의 감정 분석 기법은 이를 제대로 이해하지 못하는 문제가 있음


ž Bhattacharyya 교수에 따르면 딥러닝을 이용해 새로 설계한 자신의 알고리즘이 기존 감정 분석 방식보다 3배 가량 정확하게 풍자를 감지해 낼 수 있었다고 함


Ø Bhattacharyya 교수의 조사에 따르면, 배터리가 2시간이나 버텼네, 멋지군 등과 같이 풍자나 아이러니를 담고 있는 트윗 중 약 20%는 숫자를 포함하고 있는데, 이런 문장들에서 일반적인 감정 분석 기법은 발화자의 원래 의도를 잘 캐치하지 못한다고 함




Ø 본래 비꼬는 말투를 알아차리려면 문맥을 이해할 수 있어야 하는데, Bhattacharyya 교수는 모순된 표현이나 생경한 감정 표현이 풍자의 특징이라며, 기존의 감정 분석 기법은 일반적 패턴과 다른 표현이 이어지는 것 때문에 본뜻을 이해하지 못하다고 설명


Ø 문제 해결을 위해 Bhattacharyya 교수는 말이나 표현의 불일치를 검출하는 알고리즘을 설계했으며, 딥러닝을 구성하고 학습시킬 수 있는 라이브러리인 CuDNN에 고속화된 텐서플로우(TensorFlow) 프레임워크를 도입하고, 엔비디어의 GPU를 이용한 신경망을 구축하였음




Ø 그 다음 대량의 트윗, 영화 평론, 1990년대 인기 시트콤 프렌즈의 대사 등 대량의 텍스트 데이터를 준비해 딥러닝을 이용한 데이터 분석을 실시하였음


Ø 분석 결과 Bhattacharyya 교수가 설계한 알고리즘은 기존 방식보다 정확하게 풍자나 아이러니를 감지 할 수 있었으며, 특히 숫자를 포함한 트윗에 대해서는 기존 감정 분석 기법보다 약 3배 가량 높은 80%의 정확도로 풍자를 이해할 수 있었다고 함