※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1851호(2018. 6. 20. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI로 강화된 이미지 검색 기능 ‘구글 렌즈’의 가능성과 과제.pdf



[ 요 약 ]


구글이 인공지능(AI) 기술을 접목해 이미지 인식 기능이 한층 강화된 구글 렌즈(Goolge Lens)'의 새로운 버전을 발표하였음. 구글 렌즈는 구글이 지난 2010년에 공개했으나 성공하지 못했던 고글 서비스의 업그레이드 버전으로 이미지 검색을 내비게이션, 주소록 관리, 온라인 쇼핑 등으로 곧 바로 연결시킬 수 있음. 구글 렌즈는 현단계 컴퓨터 비전의 최고 수준을 보여주고 있지만, 스마트폰의 제한된 자원으로 AI 분석을 수행하기 때문에 연속 사용시간이 20여분에 불과해 일상적인 이용 서비스가 되기엔 다소 시간이 소요될 전망



[ 본 문 ]

201711월에 구글 렌즈(Google Lens)’를 선보였던 구글이 6개월 만에 기능을 대폭 강화시킨 최신 버전을 내놓았음


구글 렌즈는 기본적으로 증강현실(Augmented Reality) 기능이며, 카메라가 포착한 개체에 정보를 추가하는 구조임


구글 렌즈는 구글의 자체 제작 스마트폰인 픽셀(Pixel) 2’ 등에 탑재되어 있는데, 인공지능 가상비서인 구글 어시스턴트(Google Assistant)’와 연계해 작동하므로, 구글 렌즈를 시작하려면 구글 어시스턴트 화면에서 렌즈 아이콘을 터치하면 됨


구글 렌즈는 앱의 형태로도 제공되기 때문에 플레이스토어에서 다운로드 받아 사용할 수도 있으나, AI 전용 프로세서 등 하드웨어 종속적 측면이 있어 기능을 온전히 이용할 수 있는 스마트폰 기종은 픽셀2, LG G7, 소니 엑스페리아 XZ2 등으로 한정됨


이번에 발표된 구글 렌즈 최신 버전에서는 이미지 검색 기능이 큰 주목을 받고 있는데, 이미지 검색 기술 자체는 새로운 것이 아니나, 고급 AI 기술이 접목되면서 이미지 검색 기능의 정확도가 크게 향상된 것이 특징


이미지 검색 기능은 기술 수준이 향상될수록 활용 분야가 넓어지고 활용 가치도 커지기 때문에 구글 렌즈 최신 버전의 성능에 많은 관심이 모이고 있음


구글 렌즈는 우선 인식 대상이 텍스트임을 알고 이를 문자로 변환할 수 있는데, 그 의미를 이해하기 때문에 연관된 기능을 스스로 하거나 사용자에게 제안할 수 있음


가령 명함을 카메라로 읽으면 그대로 주소록에 등록할 수 있고, 명함에 기재되어 있는 전화번호를 인식하여 곧바로 전화를 걸 수도 있으며, 주소를 인식하면 구글 지도(Google Maps)를 호출하여 해당 위치까지 경로를 탐색할 수 있음


또한 길을 가다 보게 된 포스터에 관심이 있는 가수의 콘서트 안내 내용이 있다면 구글 렌즈를 통해 콘서트의 공연 프로그램과 연락처 정보를 추출할 수도 있음


구글 렌즈는 소위 OCR(광학문자인식)로서 기능하는 것이지만 그 내용의 의미까지 이해하기 때문에 활용가치가 보다 커지는 것임



<자료> Gadget Hacks

[그림 1] 구글 렌즈로 명함과 포스터 인식


구글 렌즈의 이미지 인식 수준은 회화나 조각 등 예술작품을 식별할 수 있을 정도로 높기 때문에 고도의 전문성을 요하는 서비스에도 활용이 가능함


미술관에서는 오디오 가이드를 빌리거나 도슨트의 설명 시간을 기다리는 대신 구글 렌즈에 가이드 역할을 맡길 수 있는데, 구글 렌즈로 그림을 보면 작품의 제목과 개략적 설명이 나타나고, 표시된 링크를 따라 가면 작품 내용에 대한 설명을 읽을 수 있음


예를 들어 인상파 화가 폴 세잔의 그림 샤토 누아(Château-Noir)’나 조각가 오귀스트 로댕의 청동 조작 작품 칼레의 시민(Les Bourgeois de Calais)’을 정확히 인식하고 소개와 연관 정보를 제시해 줌


미술관에서 촬영한 사진을 나중에 구글 렌즈로 볼 때도 비슷한 개요 설명이 표시되는데, 구글 렌즈의 그림에 대한 인식 수준은 아주 높다는 평을 받을 받고 있어, 앞으로 사람들의 미술 감상 스타일이 바뀔 수 있다는 전망도 나오고 있음


<자료> the Verge

[그림 2] 회화와 조각 미술품을 정확히 인식


미술관 도슨트의 역할 대행과 마찬가지로 구글 렌즈는 관광 가이드 역할도 대신할 수 있는데, 랜드마크가 되는 주요 건물과 기념물, 조형물을 인식할 수 있기 때문


주변의 건물 등에 카메라를 비추면 구글 렌즈는 해당 건물을 인식해 그 이름을 표시해 주며 링크 정보를 함께 제공하는데, 가령 구글 본사를 카메라로 찍으면 구글플렉스(Googleplex)’라는 건물명을 정확히 보여 줌


주요 건물을 촬영한 사진을 나중에 구글 렌즈에서 보면 관광했던 장소의 이름과 간략한 소개글을 보여 줌


<자료> the Verge

[그림 3] 유명 랜드마크 건물의 인식


곳곳에 수없이 존재하는 랜드마크를 인식하는 것은 생각보다 고도의 기술을 필요로 하는데, 특히 보는 각도와 그림자의 방향이 다르기 때문에 랜드마크 이미지를 정확히 판정하는 것은 미술품의 판정보다 매우 어려움


현재 구글 렌즈가 정확히 인식할 수 있는 랜드마크의 수는 한정되어 있고 인식 정확도도 완전하지 않아 향후 더욱 기술 개선이 필요한 상황이라고 함


구글 렌즈를 식물도감으로 활용하는 것도 가능해졌는데, 단 화초에 대한 인식 능력의 제법 괜찮은 편이지만 나무와 잎모양에 대한 판정 능력은 아직 크게 떨어지는 편임


카메라로 집 주변이나 유원지에서 찍은 화초 산진을 보면 구글 렌즈는 자스민(Jasmine)’이라거나 하나비시소우(California Poppy)’라는 식으로 알려주기 때문에 휴대형 식물도감으로 사용하는 것도 가능함


식물은 비슷비슷해 보이는 것들이 많기 때문에 판정이 어렵고, 아주 고도의 학습된 신경망이 필요하지만 구글 렌즈로 꽃을 비추면 반응 속도가 빠르며 정답률도 나쁜 편이 아님


반면, 나무나 나뭇잎에 대해서는 알고리즘 교육이 아직 충분치 않은 것인지 인식 능력이 크게 떨어진다는 평을 받고 있음


전반적으로 비록 제한 사항은 있지만 구글 렌즈로 주변 식물의 종류를 일부나마 알 수 있게 된 것은 그 자체로 컴퓨터 비전 기술의 진화를 잘 보여주는 사례라는 반응이 주를 이루고 있음


이처럼 AI와 결합으로 한층 진화된 구글 렌즈의 이마지 인식 성능을 응용하여 구글은 새롭게 스마트 텍스트 선택기능과 스타일 매치기능을 추가하였음


스마트 텍스트 선택(Smart Text Selection)’ 기능은 구글 렌즈로 인식한 텍스트 중에서 특정 부분을 선택하는 기능인데, 가령 레스토랑 메뉴 중에서 무엇인지 잘 몰라 궁금한 요리를 선택하면 구글 렌즈가 그 내용을 설명해 주게 됨프랑스어나 이탈리아어 등으로 적혀 있을 경우에는 선택 후 번역(Translate)’ 버튼을 터치하면 되는데, 요리의 종류가 무엇이고 주요 사용 재료가 무엇인지를 설명해 줌

<자료> Android Authority

[그림 4] 구글 렌즈의 스마트 텍스트 선택


스타일 매치(Style Match)’는 패션과 가구 등을 제안하는 기능인데, 구글 렌즈로 세련된 옷의 사진을 보면 그 옷과 동일하거나 유사한 디자인의 의류 상품을 제시해 주는데, 제시된 상품이 마음에 든다면 곧 바로 구매할 수도 있음


비단 의류만 그런 것은 아니고 신발이나 가방을 보면, 같은 취향의 상품을 표시해 주고 집안에서 구글 렌즈로 가구를 비추어도 유사한 가구 제품을 보여 줌


이미지로 유사 상품을 제안하는 기능은 아마존 등 쇼핑몰에서도 제공하고 있지만, 구글 렌즈는 카메라에서 포착한 라이브 이미지를 실시간으로 영상 분석한 다음 디자인이 비슷한 상품을 검색해 제시하기 때문에 보다 고도의 기술이 필요한 것임



<자료> Digital Trends

[그림 5] 구글 렌즈의 스타일 매치


◾ 구글 렌즈의 새로운 기능을 뒷받침하는 엣지 컴퓨팅 기반 실시간 분석은 현단계 최고 수준의 컴퓨터 비전 기술을 보여주나 배터리 과소모 등 해결해야 할 난제도 남아 있음


기술적 측면에서 구글 렌즈의 가장 큰 기능적 특징은 실시간 결과(Real-Time Results)’라 할 수 있는데, 말 그대로 실시간으로 객체를 파악할 수 있게 해 줌


구글 렌즈가 탑재된 카메라로 주위를 둘러보면 렌즈에 찍힌 객체 주변에 흰 점이 나타나는 것을 볼 수 있는데, 이 점들은 AI로 분석한 영역을 나타내는 것이며 실시간으로 파악한 후 관련된 정보를 표시해 주는 것임, 구글 렌즈는 시스템 아키텍처 상의 맨 끝(엣지, edge)에 위치한 스마트폰에서 AI로 이미지 분석을 수행하고 메타 정보를 클라우드로 전송하여 백엔드에서 검색 프로세스를 실행하는 구조임


<자료> Digital Trends

[그림 6] 구글 렌즈의 실시간 이미지 분석


이미지 분석에서 엣지 컴퓨팅을 사용한 것은 놀라운 일인데, 스마트폰의 제한된 컴퓨팅 자원으로 신경망을 가동시켜 이미지 분석을 수행해야 하는데다가, 빛의 조건이나 촬영 각도에 따라 이미지가 크게 바뀌기 때문에 개체 인식이 어렵기 때문임


구글은 엣지 컴퓨팅을 위해 클라이언트에는 구글이 자체 개발한 이미지 처리 전용 AI 프로세서인 픽셀 비주얼 코어(Pixel Visual Core)’ 탑재를 권장사항으로 하고 있고, 클라우드 상의 AI 처리에는 클라우드 TPU(Cloud TPU)'를 사용하고 있음


구글 렌즈는 클라어언트에서 실시간으로 연속적인 이미지 분석을 수행하는 구조를 갖추고 있어 최고의 컴퓨터 비전이라 할 수 있지만, 단 프로세서에 높은 부하가 발생해 스마트폰의 발열이 심하고 20분 정도 계속하게 되면 배터리가 바닥나는 문제가 있음


구글에 따르면픽셀 비주얼 코어칩이 표준 프로세서보다 속도가 5배 빠르고 전력 소비량은 10분의 1에 불과한데, 그럼에도 불구하고 구글 렌즈의 연속 사용시간이 20분에 불과하다는 것임


바꿔 말해 픽셀 비주얼 코어를 탑재하지 않은 스마트폰이라면 배터리 소모가 더욱 심할 것이기 때문에, 비판적으로 본다면 구글 렌즈는 아직까지는 컨셉에 가깝고 실제 일상적인 스마트폰 기능으로 사용하기엔 아직 요원하다 말할 수도 있음


이는 스마트폰이라는 제한된 컴퓨터 처리 용량과 배터리 용량을 가진 디바이스를 AI 분석의 단말기로 사용하기 때문에 발생하는 것으로 현재로서는 어쩔 수 없는 문제이며, 향후 지속적으로 해결해야 할 과제임


◾ 구글 렌즈는 일종의 증강현실 기반 이미지 검색으로 구글의 핵심 사업인 검색 서비스 강화가 목적으로 보이며, 기술이 안정화된다면 새로운 구글링 도구로 일상에 자리 잡을 전망


구글은 지난 2010년 이미지 검색 스마트폰 앱인 구글 고글(Google Goggles)'을 선보인 바 있지만 폭넓게 확산되지는 못했음


구글 고글은 랜드마크, 도서, 주소록, 예술작품, 장소, 와인, 브랜드 로고 검색을 이미지 검색으로 수행한다는 컨셉으로, 구글 렌즈가 하려는 기능과 사실상 동일함


<자료> Kliker

[그림 7] 구글 고글의 이미지 검색 기능


구글 렌즈는 구글 고글의 후속 사업모델인 셈인데, 고급 AI를 구현하여 검색 정확도가 크게 향상되었기 때문에 구글은 사용 확산은 기대하고 있음


구글 어시스턴트는 단어 검색 질의뿐 아니라 비디오와 이미지 검색 기능 실행을 통해 검색의 폭을 크게 넓히려 하고 있는데, 구글 렌즈는 구글 어시스턴트를 통한 이미지 검색 질의 건수 증가에도 기여할 것으로 보임


이미지 검색의 정확도를 높이고, 그 결과를 전자상거래와 곧 바로 연결한다는 점에서 구글 렌즈는 구글의 핵심 비즈니스에 가장 부합하는 것이라 할 수 있음


사용시간 문제 등 아직은 일상화하기에 부적합한 면이 있지만 구글 렌즈는 다양한 용도로 활용이 가능하기 때문에, 구글링이 일상적 행위로 자리 잡은 것처럼 구글 렌징도 배터리 문제만 해결된다면 이용자들의 일상 속에 녹아들 것으로 전망되고 있음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1818호(2017. 10. 18. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 하드웨어 신제품 발표, 제품 차별화 요소는 &lsquo;AI 최적화&rsquo;.pdf



[ 요 약 ]


구글이 작년에 이어 메이드 바이 구글(Made by Google) 행사를 통해 신제품을 대거 공개했는데올해 신제품 발표회의 테마는 하드웨어와 소프트웨어그 중에서도 인공지능(AI)의 통합이었음구글은 이번 신제품에 최신 AI 기술의 성과를 광범위하게 적용하며향후 AI가 기기 차별화의 결정적 요인이 될 것으로 바라보고 있음을 드러냈음스마트 기기의 하드웨어 차별성이 점차 엷어지는 가운데소프트웨어 최적화를 넘어선 AI 최적화가 제품 경쟁의 새로운 화두가 될 것으로 예상됨



[ 본 문 ]


ž 작년 10메이드 바이 구글(Made by Google) 하드웨어 신제품 5개를 일거에 출시했던 구글이 1년 만에 다시 신제품을 대거 발표하였음


Ø 이번에 발표한 신제품은 작년에 출시된 제품의 업그레이드 버전도 있지만, 구글로서는 새롭게 시도하는 제품들도 포함되어 있음


<자료> Google

[그림 1] Made by Google 2017


Ø 작년에 선보인 구글 자체 스마트폰 픽셀(Pixel)의 후속 버전으로 픽셀 2가 발표됐으며, 역시 작년에 선보인 인공지능(AI) 스피커 구글 홈(Google Home)은 이번에 구글홈 미니(Mini)구글홈 맥스(max)로 라인업이 확대되었음


Ø 올해 새롭게 선보인 제품으로는 액션 카메라인 구글 클립스(Google Clips)와 음악 재생 및 외국어 번역에 사용하는 블루투스 헤드셋 구글 픽셀 버즈(Google Pixel Buds), 그리고 크롬북의 상위 버전이라 할 수 있는 노트북 픽셀북(PIxelbook)이 있음


Ø 작년 10월에 이어 1년 만에 다시 하드웨어 발표회를 개최함으로써 향후 구글이 5월에 개최되는 연례 개발자 컨퍼런스 구글 I/O에 이어 10월의 신제품 발표회를 연례 행사화 할 가능성도 점쳐지고 있음


ž 이번 신제품 발표회의 테마는 하드웨어에 소프트웨어와 인공지능(AI)을 통합하는 것으로, 구글이 AI를 제품 차별화의 결정적 요인으로 바라보고 있음을 드러냄


Ø 구글홈 미니는 아마존의 소형 AI 스피커인 에코닷(Echo Dot)의 대항마 성격으로, 가격은 49 달러이지만 AI 가상비서 기능인 구글 어시스턴트(Google Assistant)가 탑재되어 있음


Ø 미니는 도넛 크기의 타원형 형상으로 상단에 LED가 탑재되어 기기 상태를 표시해주는데, 에코닷과 마찬가지로 가정 내 각 방에 하나씩 놓고 사용하는 것을 전제로 디자인 한 것으로 보이며, 구글이 집 전체 공간을 AI로 채우고 싶어함을 유추할 수 있음


Ø 맥스는 음질을 중요한 모델인 동시에 구글이 400 달러인 가격에 걸맞게 구글홈보다 20배 정도 성능이 강력하다고 소개할 정도로 AI 기반의 사운드 재생 기능이 뛰어난 기기임


Ø 2개의 4.5인치 우퍼를 내장해 깊이 있는 사운드 재생이 가능하며, 스마트 사운드(Smart Sound) 기능을 탑재하고 있어 주변 환경과 사용자의 컨텍스트에 맞게 음악을 재생할 수 있음



<자료> Google


[그림 2] 구글홈 미니(Mini)와 맥스(Max)


Ø 구글은 스마트 사운드 기능의 예로 AI가 방의 모양을 파악해 그에 적합한 사운드를 재생하거나, 아침 시간에는 볼륨을 좀 낮추어 재생하고 식기 세척기가 가동 중이어서 시끄러울 때는 볼륨을 높여 음악을 재생하는 것 등이 가능하다고 설명하고 있음


Ø 픽셀 2 스마트폰에는 지난 5월 구글 I/O에서 소개한 구글 렌즈(Google Lens) 기능이 처음으로 적용되었는데, 구글 렌즈는 구글 어시스턴트를 기반으로 렌즈에 비친 사물에 대한 정보를 불러들인 후 사진에 담긴 물체나 글자를 인식해 알려주는 AI 카메라임


Ø 픽셀북은 노트북과 태블릿 PC를 결합한 것으로 역시 구글 어시스턴트가 적용되어 있으며, 가령 픽셀북 펜을 이용해 디스플레이 화면 안의 특정 부분에 원을 그리면 구글 검색 엔진이 그 원안의 물체를 인식하고 관련된 정보를 검색해 줌


ž 구글이 AI를 신제품의 차별화 요소로 삼는 이유는, AI가 비단 구글의 하드웨어 신제품뿐 아니라 스마트 홈 생태계의 허브 기능을 담당할 것으로 보기 때문임


Ø 구글홈의 핵심 기능인 구글 어시스턴트는 스마트폰(안드로이드와 iOS), 스마트 워치(안드로이드 웨어), 텔레비전(안드로이드 TV) 등과도 연계할 수 있으며, 가상 비서의 인터페이스는 급속하게 음성으로 전환하고 있음


Ø 구글 어시스턴트는 생태계를 급속히 확장하고 있는데, 현재 스마트 홈 관련 기업 네스트(Nest), 필립스(Philips), 스마트씽스(SmartThings) 등이 내놓은 1천여 제품과도 연계가 가능함


Ø 특히 알파벳 산하의 네스트와 구글홈의 연계가 더욱 강화되고 있는데, 이번 기능 업그레이드로 네스트의 보안 카메라인 네스트 캠(Nest Cam)을 구글홈에서 조작할 수 있게 되었음


<자료> Google


[그림 3] 구글홈과 네스트 캠의 연계


Ø 이로써 가령 현관에서 무슨 소리가 나는 것 같을 때 구글홈에게 현관 앞 상황을 TV로 보여줘라고 명령하면, 구글홈이 네스트 캠에 찍힌 영상을 TV로 디스플레이 하는 것이 가능해졌음


Ø 또한 네스트의 스마트 초인종인 네스트 헬로(Nest Hello)도 구글홈에서 조작할 수 있게 되었는데, 네스트 헬로는 얼굴 인식 기능으로 방문자를 식별할 수 있는 친숙한 얼굴(Familiar Faces)라는 기능을 탑재하고 있음


Ø 따라서 누군가 초인종을 누르면 네스트 헬로가 그 인물을 인식해 구글홈에 알려주고, 구글홈이 이용자에게 방문자의 이름을 알려주는 것이 가능하며, 이런 기능을 활용해 네스트와 연계한 주택의 보안을 구글홈에서 집중 관리하는 것이 가능함


Ø 구글 어시스턴트가 허브가 되는 스마트 홈은 개인화 서비스도 가능한데, 보이스 매치(Voice Match) 기능을 통해 동시에 여섯 명의 목소리를 구분해 알아 듣고 개별 대응이 가능하기 때문


Ø 개인 맞춤형 서비스의 예로 이번 신제품 발표회에서는 에브리데이 루틴(Everyday Routines) 기능이 소개되었는데, 이는 한 단어만 듣고 그 사람과 관련된 여러 가지 명령을 동시에 실행하는 것으로 구글의 지향점을 잘 보여주고 있음


Ø 가령 식구들 중 회사로 출근을 해야 하는 사람이 있을 경우, 이 사람이 아침에 일어나 좋은 아침이라고 한 마디만 하면, 구글홈이 그의 하루 일정을 확인하고 일정에 따른 이동 경로의 도로 정체 정보를 알려주며 주요 뉴스를 읽어주도록 설정할 수 있음


Ø 또한 아이들이 구글홈에게 우리 게임하자라고 말을 할 경우, 아이들의 목소리를 인식하여 아이들이 안전하게 즐길 수 있는 게임을 실행하도록 설정할 수도 있음


ž 구글은 AI가 스마트 홈의 허브로 선택될 수 있도록 인간 친화적인 특성을 띠게 하는 데도 공을 들였는데, 여기에는 딥마인드(DeepMind)의 새로운 음성합성 기술이 기여를 하였음


Ø 구글홈의 음성 발화는 고급 AI가 적용되어 매우 매끄럽게 들리는데, 여기에는 딥마인드가 지난해 발표한 새로운 음성 합성(Speech Synthesis) 기술이 관여되어 있음


Ø 딥마인드가 새롭게 발표한 웨이브넷(WaveNet)은 심층신경망(Deep Neural Network)을 이용해 기계음이 인간에 가깝게 자연스럽게 발성할 수 있게 해주는 음성 합성 기술임


Ø 일반적으로 음성 합성은 말을 아주 작은 단위로 나눈 다음 필요한 음운, 음소, 단어에 맞게 조립하는 음성 연결 합성(Concatenative TTS)이라는 기법 사용하는데, 이 때문에 기계음은 말 그대로 기계적이고 어색한 톤으로 발화가 됨


Ø 딥마인드는 기존의 방식과 전혀 다른 접근 방식을 취했는데, 웨이브넷은 많은 수의 음성 샘플을 배우고 음성 파형(Audio Waveform)을 잘게 세분화 해 분석함으로써 음성 만으로는 알 수 없었던 숨 고르기나 단어 혹은 문장끼리 합쳐지는 방식까지 이해가 가능하게 하였음


Ø 구체적으로 살펴 보면 컨볼루셔널 신경망(Convolutional Neural Network, CNN)이 발화의 구성을 파악하여 어떤 음색(Tone) 후에 어떤 음색이 이어지는지, 어떤 파형(Waveform)이 자연스러운지 학습하게 되며, 이를 토대로 아주 부드러운 음성을 합성하게 됨


Ø 딥마인드는 웨이브넷이 인간의 미묘한 톤이나 억양, 말할 때의 속도 등을 그대로 재현할 수 있다고 설명했는데, 음성 연결 합성 방식이나, 인간 음성 샘플 없이 기계가 음성을 생성하는 방식(Parametric TTS) 등 기존 기술과 블라인드 테스트를 한 결과 인간의 실제 음성에 육박하는 수준의 높은 점수로 1위를 차지했다고 함


Ø 단 작년 발표 시점에서 웨이브넷은 음성 합성을 빠르게 수행 할 수 없어 0.02 초의 오디오를 생성하는데 1 초가 필요했으나, 그 동안 알고리즘 개선을 통해 빠른 음성 합성까지 가능해졌다고 하며, 현재 1 초 길이 오디오를 50 밀리 초에 생성하므로 실시간 사용이 가능하다고 함


[1] 딥마인드 웨이브넷과 음성 합성 기술의 비교

 

Concatenative

Parametric

WaveNet

인간의 음성

미국식 영어

3.86

3.67

4.21

4.55

만다린 중국어

3.47

3.79

4.08

4.21

<자료> DeepMind


ž 하드웨어들의 주요 기능이 점차 천편일률적으로 되어 가는 상황에서, 이번 구글의 신제품 발표회는 향후 AI 최적화가 스마트 기기의 시장 성패를 가르게 될 것임을 강하게 시사


Ø 구글홈을 비롯해 이번에 구글이 발표한 제품들의 배후에는 최신 AI 기법이 광범위하게 사용되고 있는데, 이용자의 음성을 인식하는 데뿐만 아니라 음성 합성 역시 AI 없이는 매력적인 특색을 실현할 수 없음을 보여주고 있음


Ø 소프트에어 기업인 구글이 자체 하드웨어 생산에 나선 데에는 여러 가지 이유가 있겠으나, 하드웨어를 통한 차별화는 이제 한계에 다다르고 소프트웨어를 통한 차별화, 그 중에서도 AI에 의한 차별화가 제품 경쟁력의 핵심 요소가 될 것으로 판단했기 때문이라 볼 수 있음


Ø 가령 지금까지 스마트폰의 경쟁 구도는 애플의 소프트에어 최적화와 삼성전자의 하드웨어 고사양화로 요약할 수 있는데, 아이폰이 상대적으로 낮은 하드웨어 사양을 소프트웨어 최적화로 커버했다면, 갤럭시 폰은 소프트웨어의 단점을 하드웨어 혁신으로 커버하는 전략이었음


Ø 그러나 최근 들어 아이폰이나 갤럭시 폰을 비롯해 대부분의 스마트폰 사양들은 유사해지고 있는데, 구글은 이를 하드웨어 혁신의 속도가 둔화된 것, 즉 하드웨어 부문을 직접 관리하는 부담이 적어지는 신호로 받아들였을 가능성이 큼


Ø 따라서 보다 중요해지는 것은 애플과 같은 소프트웨어 최적화 역량인데, 구글은 안드로이드 OS와 하드웨어의 최적화에 덧붙여 AI 최적화를 무기로 하드웨어 비즈니스에 뛰어들려는 것으로 해석할 수 있음


Ø 하드웨어 경쟁력보다 소프트웨어 경쟁력이 압도적 이윤을 가져다 줄 수 있다는 점은 이미 애플과 삼성전자의 경쟁에서 확인된 바 있거니와, 구글은 이에 더해 AI가 제품의 차별화와 이윤을 가져다 줄 것이라 주장하는 것임


Ø 구글이 던진 AI 최적화의 화두는 스마트 디바이스 시장의 경쟁 지형을 새롭게 재편할 가능성이 크며, 디바이스 제조업체들 앞에 쉽지 않은 숙제가 던져진 셈

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1799호(2017. 6. 7 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI가 AI를 개발한다, 구글의 전사 인공지능 프로젝트 Google ai.pdf



[ 요 약 ]


작년 11인공지능 퍼스트(AI First) 기업을 선언했던 구글의 선다 피차이 CEO는 올해 구글 I/O 컨퍼런스에서 그간의 성과를 설명하며 인공지능을 구글의 모든 제품과 서비스의 기반으로 삼는다는 전략 하에 Googl.ai 프로젝트를 진행 중이라고 설명. Google.ai의 연구 테마에는 사람이 아닌 인공지능이 인공지능의 알고리즘을 설계하는 AutoML이 포함되어 있으며, 이 연구 성과를 바탕으로 구글의 제품을 개선하고 인공지능 연산 처리를 위한 새로운 데이터센터를 구축한다는 계획


[ 본 문 ]

ž구글은 최근 개최된 연례 개발자 컨퍼런스 ‘Google I/O 2017’에서, 전사 차원의 인공지능(AI) 전략으로 ‘Google.ai’ 프로젝트를 진행 중이라고 공개


Ø 작년 11월 제품 발표회에서 인공지능 최우선(AI First) 기업을 선언한 바 있는 선다 피차이 CEO는 올해 I/O 컨퍼런스 기조연설에서 전사 차원의 AI 전략을 실행 중에 있다고 밝히며 프로젝트의 세부사항에 대해 발표하였음  구글은 최근 개최된 연례 개발자 컨퍼런스 Google I/O 2017에서, 전사 차원의 인공지능(AI) 전략으로 Google.ai 프로젝트를 진행 중이라고 공개

<자료> Engadget


[그림 1] Goolge.ai를 발표하는 선다 피차이 CEO


Ø 현재 진행 중인 전사 프로젝트의 명칭은 Google.ai로 고도의 AI를 개발하고 이를 구글의 모든 제품과 서비스의 기반 기술로 삼는다는 전략을 구현한 것임


Ø 진행 중인 Google.ai 프로젝트는 「기초연구」, 「도구」, 「응용기술」의 세 분야로 구성되어 있는데, 기초 연구는 고도의 AI 기술의 개발을, 도구는 AI를 실행하는 프로세서 등에 기반한 AI 데이터 센터의 제공을, 응용기술은 AI를 통한 구글 서비스의 개선을 목표로 하고 있음


ž 「기초연구」 분야에서 구글이 주목하고 있는 연구 테마는 AutoML인데, 이는 AI AI를 생성하는 기술의 개발을 통해 알고리즘 개발 임무를 인간에서 AI로 이관하려는 것임


Ø AutoML은 기계학습(Machine Learning)을 자동 생성하는 연구, 다시 말해 알고리즘이 다른 알고리즘을 생성하는 기법을 개발하는 것으로 [그림 2]AI AI를 생성하는 것을 보여주는데, 왼쪽이 인간이 만든 AI 알고리즘이며 오른쪽은 그 AI가 만들어 낸 딥러닝 알고리즘임


Ø [그림 2]의 사례는 처리 결과를 다음 단계로 루프시키는 반복(Recurrent) 구조의 네트워크로 시간에 의존하는 언어처리 등에 따라 언어 처리 등에 사용될 수 있는데, 이 알고리즘에 한 단어를 입력하면 다음 단어를 예측해 줌


<자료> Google Research Blog


[그림 2] 사람과 인공지능이 설계한 기계학습 알고리즘 아키텍처 비교


Ø AI가 생성한 알고리즘 아키텍처를 보면 사람이 설계한 것과 동일한 특징을 공유하기도 하지만, 증식적인 조합을 구현하기 위해 새로운 엘리먼트를 구사하는 것처럼 주목할 만한 차이를 보이는데 이런 방식은 사람이라면 반복 구조의 네트워크에서 대개는 사용하지 않는 것임


Ø 보통 알고리즘의 개발 연구자의 경험과 감이 크게 작용하며, 기존에 확립된 기술을 기반으로 개선점을 찾아 새로운 모델을 생성하게 됨


Ø 반면 AI는 수 많은 알고리즘을 생성하고 이들의 실제 학습 수행 정도를 파악하는 방법, 즉 피드백을 바탕으로 정확한 알고리즘을 만드는 방법을 학습함


Ø 인간은 소위 정석이라 불리는 것들을 축적하지만, AI는 때로 사람이 생각하기에 상식을 뒤집는 방식을 생성하는데, 선다 피차이 CEO의 설명에 따르면 인간이 생성한 알고리즘보다 AI 생성한 알고리즘의 정밀도가 더 높다고 함


Ø AutoML는 구글의 딥러닝 AI 리서치 센터인 구글 브레인(Google Brain)에서 연구 중이며 AI가 최적의 네트워크 구성을 자동으로 설계하는 것을 목표로 하는데, 이는 딥러닝 알고리즘 설계의 임무를 연구원에서 AI로 이관시킴을 의미함


Ø 이는 어찌 보면 AI 연구자 자신도 AI의 진화로 인해 일자리를 잃게 됨을 의미하나, 현재는 AI 연구자의 수가 절대적으로 부족하기 때문에 AutoML은 인력 부족을 해소하는 수단이 되며, 구글은 AI로 대체 가능한 연구인력을 AI 클라우드 개발로 돌려 관련 사업을 강화한다는 계획임


ž 「도구」 분야와 관련해서는 대규모 연산을 위한 확장성에 초점을 맞춘 인공지능용 프로세서로 Cloud TPU를 발표하였음


Ø TPU(Tensor Processing Unit)는 기계학습 연산 전용 프로세서인데, 텐서(Tensor) Trillion Sensor의 합성어로 향후 전세계가 수조 개의 센서들을 연결될 것이란 뜻을 담고 있음


Ø Cloud TPU 2세대 TPU로서 대규모 연산을 위한 확장성을 중시한 설계로 되어 있으며, 성능은 180Tflops(테라플롭스)64GB의 고속 메모리를 탑재한다고 함


Ø 플롭스(FLOPS, FLoating point OPerations per Second)는 컴퓨터의 성능을 수치로 나타내는 단위로 1초 동안 수행할 수 있는 부동소수점 연산의 횟수를 의미하며, 테라플롭스는 1초에 1조 번(1012) 연산 처리가 가능하다는 뜻


Ø 64개의 Cloud TPU가 보드에 탑재되면 TPU 파드(Pods)를 구성하게 되는데, 파드의 최대 성능은 11.5 Pflops(페타플롭스, 테라플롭스의 1천 배)로 이는 수퍼 컴퓨터 수준의 성능임



<자료> Engadget


[그림 3] 인공지능용 프로세서 Cloud TPU() AI 퍼스트 데이터센터(아래)


Ø TPU 파드는 랙에 탑재되어 구글 연산 엔진(Google Compute Engine)으로 제공될 것이며, 구글은 Cloud TPU를 이용한 AI 처리 전용 데이터 센터를 구축할 계획인데, 이를 AI 최우선 데이터센터(AI First Datacenter)라 부르고 있음


Ø Cloud TPU 발표와 동시에 구글은 텐서플로우 리서치 클라우드(TensorFlow Research Cloud)를 발표했는데, 이는 Cloud TPU 1천 개 연결한 연구자들을 위한 클라우드 서비스로 고도의 AI 기술 개발을 위해 무상으로 제공한다고 함


ž 「응용기술」 분야와 관련해서는 인공지능을 카메라에 응용한 신제품 구글 렌즈(Google Lens)를 적용 사례로 소개하였음


Ø 구글 렌즈는 카메라의 렌즈를 AI로 구성한다는 아이디어로, 카메라의 기능과 성능을 AI 소프트웨어가 결정한다는 뜻이며, 사진 촬영을 시작하면 카메라가 AI를 이용해 이미지를 재구성함


<자료> Google.ai


[그림 4] 카메라에 AI를 결합한 구글 렌즈


Ø 가령 [그림 4]처럼 야간 촬영 시 이미지에 노이즈가 있을 경우 AI가 이를 보정하는데, 셔터를 누르면 카메라가 자동으로 여러 차례(16, 32회 등) 빛에 노출시킨 후 노이즈를 제거하는 것을 반복하게 됨


Ø 또한 철조망 뒤에서 사진을 찍을 경우 AI가 자동으로 철조망을 제거하는 이미지 인페인팅(Image Inpainting) 기능도 갖추고 있음


Ø 구글 렌즈는 카메라에 비친 객체를 판정하는 기능이 있어, 가령 꽃 촬영에 구글 렌즈 기능을 선택하면 꽃의 종류가 무엇인지를 식별하고, 길거리 상점을 촬영하면 그 간판의 이름을 인식한 후 관련된 정보를 함께 표시해 줌


Ø 즉 카메라가 이미지 검색의 입력 장치가 되는 것으로 이는 구글 고글(Google Goggles) 등에서 이미 제공되는 기능이지만, AI를 이용하여 그 기능성과 인식 정확도를 향상시켰음


ž 드러나 보이지 않는 곳에서 AI를 이용해 구글의 서비스를 폭넓게 지원하는 응용 사례로는 구글 지도와 지메일을 소개하였음


Ø 카메라의 이미지 인식 기능을 AI와 접목하는 기술은 구글 스트리트 뷰(Street View)와 구글 지도(Google Maps)에도 적용되어 활용되고 있음


Ø 스트리트 뷰는 촬영된 이미지에서 건물에 부착되어 있는 숫자를 읽어 식별할 수 있었는데, 지금은 AI가 숫자뿐만 아니라 거리의 이름도 읽어 정확히 위치를 파악할 수 있음


Ø 표지판이 선명하게 찍혀 있지 않은 경우라도 샘플이 네 장 AI가 정확하게 판정할 수 있다고 하는데, 구글은 이 기술을 스트리트 뷰로 촬영한 800억 장의 이미지에 적용하여 위치를 파악하고 있기 때문에 구글 지도의 정확도를 크게 향상시켰다고 함


Ø 이미지 인식 기능의 활용은 와이파이 접속에도 이용할 수 있는데, 스마트폰으로 와이파이 네트워크 이름과 패스워드를 스캔하면 자동으로 와이파이에 연결하도록 도와줄 수 있음


Ø 스마트 회신(Smart Reply) 기능이 탑재된 지메일 역시 AI의 지원으로 구글 서비스 편의성을 강화한 대표적 사례인데, AI는 수신한 메일의 제목과 내용을 파악하여 이용자를 대신해 최적의 회신 문장을 생성한 다음 이용자에게 제시함


Ø 이용자는 AI가 제시한 세 개의 회신 문장 중에서 가장 낫다고 생각하는 하나를 클릭하는 것만으로 메일 회신을 할 수 있는데, 스마트 회신 기능이 등장한 지는 1년이 넘었으며 지금은 다소 복잡한 내용의 메일에도 회신 문장을 생성할 수 있는 수준이 되었음




<자료> Engadget


[그림 5] 인공지능 활용한 이미지 인식 기능 개선()과 이메일 자동 회신(아래)


Ø 이처럼 인공지능은 겉으로 드러나게 또는 드러나지 않게 기능성 향상에 기여하고 있으며, 구글은 이번 개발자 컨퍼런스에서 향후 자신들의 모든 제품과 서비스에 AI를 적용해 개선시키겠다는 목표를 밝힌 것임


ž 「응용기술」 분야와 관련해서 또 하나 주목할 것은 구글이 AI를 의료 분야에 적용할 계획임을 명시했다는 것으로, 향후 IBM 및 애플과 치열한 기술 경쟁을 예고하고 있음


Ø 구글은 이미 AI를 사용하여 당뇨 망막증(Diabetic Retinopathy) 판정 시스템을 발표한 바 있는데, 이 병은 당뇨 합병 질환으로 실명 위기까지 이어질 가능성이 높은 것으로 알려져 있어, 정확한 판정 시스템의 개발은 질병의 조기 발견과 치료에 상당한 기여를 할 것으로 기대되고 있음


Ø 구글에 따르면 AI는 이미 의사보다 높은 정확도로 당뇨 망막증 진환을 감지해 내는 데 성공했으며, AI를 의료 이미징에 활용할 수 있다는 것이 증명되자 구글은 자회사 딥마인드(DeepMind) 함께 의료 분야에서 AI 연구 개발을 중점적으로 추진하고 있음


<자료> Google


[그림 6] AI를 이용한 의료 이미지 판독


Ø 구글이 개발한 이미지 인식 알고리즘인 구글 인셉션(Google Inception)은 세계 최고 수준의 성능으로 평가받고 있는데, 구글은 누구나 자유롭게 이 소프트웨어를 이용하여 진단 및 치료 솔루션을 개발할 수 있도록 공개하고 있음


Ø 가령 구글 인셉션 소프트웨어를 피부암의 판정에 응용하면 전문의보다 정확하게 질병을 판정 할 수 있는 것으로. 나타났는데, 특별한 알고리즘이 필요하지 않아 암 탐지 시스템의 개발 문턱이 극적으로 낮아졌기 때문에 이미 피부암 판정 스마트폰 앱까지 등장하고 있는 상황


Ø IBM 왓슨의 선도적 비즈니스가 성과를 거두며 의료 분야에서 AI 활용에 대한 평가와 전망은 매우 긍정적인데, 구글과 기술 경쟁, AI 기반 의료 기술의 공개화 등 흐름과 맞물린다면, 의료 분야에서 AI 기반의 혁신 사례는 잇따라 등장할 것으로 예상됨


ž 구글은 자신들의 모든 영역에 AI를 적용하고자 하는 AI 최우선 기업으로서 그 성과를 어필했지만 이제 시작일 뿐이며, 시장 지향 AI를 향한 본격적 행보 선언에 그 의의가 있음


Ø 구글은 인공지능 퍼스트를 모토로 내세운 기업으로 그간의 연구개발 성과와 응용사례를 소개했지만, 이번 연례 개발자 컨퍼런스에서 새로운 비전을 제시하는 놀라운 기술과 제품은 등장하지 않았다는 평가가 지배적


Ø 구글 렌즈 등의 기능도 이미 일부 활용되고 있는 기술이고, AI를 음성 인식에 응용해 고급 자연언어처리 접목한 인공지능 스피커 '구글 홈이나 가상 비서 구글 어시스턴트도 이미 소개된 기술일뿐더러 이 분야에서는 오히려 아마존 에코와 알렉사가 시장을 선점하고 있는 상황임


Ø 이는 세계 최고 수준의 AI 기술을 보유하고 있는 구글이지만, 의료와 같은 특수 분야를 차치하고 나면 일상적으로 소비자들이 AI의 혜택을 느낄 수 있는 제품과 서비스를 개발한다는 것은 쉽지 않은 일이라는 것을 보여주는 대목


Ø 기술 특이점(singularity) 접근 전망과 함께 하루가 다르게 고도화되어 가고 있는 AI를 어떻게 제품과 서비스에 연결시킬 것인가에 대한 질문도 계속해서 나오고 있으며, 이에 대한 대답을 내놓는 것은 구글뿐 아니라 IT 업계가 공통으로 안고 있는 과제일 것임


Ø 그러나 어쩌면 소비자의 욕구와 잠재 욕망을 자극할 수 있는 AI 기반 제품과 서비스의 개발 역시 사람이 아닌 인공지능 스스로가 만들어 낼 지도 모를 일이며, 그런 면에서 AI AI를 만든다는 모토를 제시하고 있는 구글이 접근방식에서는 유리한 상황이라 할 수 있겠음