Search

'실시간 이미지 분석'에 해당되는 글 1건

  1. 2018.06.22 AI로 강화된 이미지 검색 기능 ‘구글 렌즈’의 가능성과 과제

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1851호(2018. 6. 20. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI로 강화된 이미지 검색 기능 ‘구글 렌즈’의 가능성과 과제.pdf



[ 요 약 ]


구글이 인공지능(AI) 기술을 접목해 이미지 인식 기능이 한층 강화된 구글 렌즈(Goolge Lens)'의 새로운 버전을 발표하였음. 구글 렌즈는 구글이 지난 2010년에 공개했으나 성공하지 못했던 고글 서비스의 업그레이드 버전으로 이미지 검색을 내비게이션, 주소록 관리, 온라인 쇼핑 등으로 곧 바로 연결시킬 수 있음. 구글 렌즈는 현단계 컴퓨터 비전의 최고 수준을 보여주고 있지만, 스마트폰의 제한된 자원으로 AI 분석을 수행하기 때문에 연속 사용시간이 20여분에 불과해 일상적인 이용 서비스가 되기엔 다소 시간이 소요될 전망



[ 본 문 ]

201711월에 구글 렌즈(Google Lens)’를 선보였던 구글이 6개월 만에 기능을 대폭 강화시킨 최신 버전을 내놓았음


구글 렌즈는 기본적으로 증강현실(Augmented Reality) 기능이며, 카메라가 포착한 개체에 정보를 추가하는 구조임


구글 렌즈는 구글의 자체 제작 스마트폰인 픽셀(Pixel) 2’ 등에 탑재되어 있는데, 인공지능 가상비서인 구글 어시스턴트(Google Assistant)’와 연계해 작동하므로, 구글 렌즈를 시작하려면 구글 어시스턴트 화면에서 렌즈 아이콘을 터치하면 됨


구글 렌즈는 앱의 형태로도 제공되기 때문에 플레이스토어에서 다운로드 받아 사용할 수도 있으나, AI 전용 프로세서 등 하드웨어 종속적 측면이 있어 기능을 온전히 이용할 수 있는 스마트폰 기종은 픽셀2, LG G7, 소니 엑스페리아 XZ2 등으로 한정됨


이번에 발표된 구글 렌즈 최신 버전에서는 이미지 검색 기능이 큰 주목을 받고 있는데, 이미지 검색 기술 자체는 새로운 것이 아니나, 고급 AI 기술이 접목되면서 이미지 검색 기능의 정확도가 크게 향상된 것이 특징


이미지 검색 기능은 기술 수준이 향상될수록 활용 분야가 넓어지고 활용 가치도 커지기 때문에 구글 렌즈 최신 버전의 성능에 많은 관심이 모이고 있음


구글 렌즈는 우선 인식 대상이 텍스트임을 알고 이를 문자로 변환할 수 있는데, 그 의미를 이해하기 때문에 연관된 기능을 스스로 하거나 사용자에게 제안할 수 있음


가령 명함을 카메라로 읽으면 그대로 주소록에 등록할 수 있고, 명함에 기재되어 있는 전화번호를 인식하여 곧바로 전화를 걸 수도 있으며, 주소를 인식하면 구글 지도(Google Maps)를 호출하여 해당 위치까지 경로를 탐색할 수 있음


또한 길을 가다 보게 된 포스터에 관심이 있는 가수의 콘서트 안내 내용이 있다면 구글 렌즈를 통해 콘서트의 공연 프로그램과 연락처 정보를 추출할 수도 있음


구글 렌즈는 소위 OCR(광학문자인식)로서 기능하는 것이지만 그 내용의 의미까지 이해하기 때문에 활용가치가 보다 커지는 것임



<자료> Gadget Hacks

[그림 1] 구글 렌즈로 명함과 포스터 인식


구글 렌즈의 이미지 인식 수준은 회화나 조각 등 예술작품을 식별할 수 있을 정도로 높기 때문에 고도의 전문성을 요하는 서비스에도 활용이 가능함


미술관에서는 오디오 가이드를 빌리거나 도슨트의 설명 시간을 기다리는 대신 구글 렌즈에 가이드 역할을 맡길 수 있는데, 구글 렌즈로 그림을 보면 작품의 제목과 개략적 설명이 나타나고, 표시된 링크를 따라 가면 작품 내용에 대한 설명을 읽을 수 있음


예를 들어 인상파 화가 폴 세잔의 그림 샤토 누아(Château-Noir)’나 조각가 오귀스트 로댕의 청동 조작 작품 칼레의 시민(Les Bourgeois de Calais)’을 정확히 인식하고 소개와 연관 정보를 제시해 줌


미술관에서 촬영한 사진을 나중에 구글 렌즈로 볼 때도 비슷한 개요 설명이 표시되는데, 구글 렌즈의 그림에 대한 인식 수준은 아주 높다는 평을 받을 받고 있어, 앞으로 사람들의 미술 감상 스타일이 바뀔 수 있다는 전망도 나오고 있음


<자료> the Verge

[그림 2] 회화와 조각 미술품을 정확히 인식


미술관 도슨트의 역할 대행과 마찬가지로 구글 렌즈는 관광 가이드 역할도 대신할 수 있는데, 랜드마크가 되는 주요 건물과 기념물, 조형물을 인식할 수 있기 때문


주변의 건물 등에 카메라를 비추면 구글 렌즈는 해당 건물을 인식해 그 이름을 표시해 주며 링크 정보를 함께 제공하는데, 가령 구글 본사를 카메라로 찍으면 구글플렉스(Googleplex)’라는 건물명을 정확히 보여 줌


주요 건물을 촬영한 사진을 나중에 구글 렌즈에서 보면 관광했던 장소의 이름과 간략한 소개글을 보여 줌


<자료> the Verge

[그림 3] 유명 랜드마크 건물의 인식


곳곳에 수없이 존재하는 랜드마크를 인식하는 것은 생각보다 고도의 기술을 필요로 하는데, 특히 보는 각도와 그림자의 방향이 다르기 때문에 랜드마크 이미지를 정확히 판정하는 것은 미술품의 판정보다 매우 어려움


현재 구글 렌즈가 정확히 인식할 수 있는 랜드마크의 수는 한정되어 있고 인식 정확도도 완전하지 않아 향후 더욱 기술 개선이 필요한 상황이라고 함


구글 렌즈를 식물도감으로 활용하는 것도 가능해졌는데, 단 화초에 대한 인식 능력의 제법 괜찮은 편이지만 나무와 잎모양에 대한 판정 능력은 아직 크게 떨어지는 편임


카메라로 집 주변이나 유원지에서 찍은 화초 산진을 보면 구글 렌즈는 자스민(Jasmine)’이라거나 하나비시소우(California Poppy)’라는 식으로 알려주기 때문에 휴대형 식물도감으로 사용하는 것도 가능함


식물은 비슷비슷해 보이는 것들이 많기 때문에 판정이 어렵고, 아주 고도의 학습된 신경망이 필요하지만 구글 렌즈로 꽃을 비추면 반응 속도가 빠르며 정답률도 나쁜 편이 아님


반면, 나무나 나뭇잎에 대해서는 알고리즘 교육이 아직 충분치 않은 것인지 인식 능력이 크게 떨어진다는 평을 받고 있음


전반적으로 비록 제한 사항은 있지만 구글 렌즈로 주변 식물의 종류를 일부나마 알 수 있게 된 것은 그 자체로 컴퓨터 비전 기술의 진화를 잘 보여주는 사례라는 반응이 주를 이루고 있음


이처럼 AI와 결합으로 한층 진화된 구글 렌즈의 이마지 인식 성능을 응용하여 구글은 새롭게 스마트 텍스트 선택기능과 스타일 매치기능을 추가하였음


스마트 텍스트 선택(Smart Text Selection)’ 기능은 구글 렌즈로 인식한 텍스트 중에서 특정 부분을 선택하는 기능인데, 가령 레스토랑 메뉴 중에서 무엇인지 잘 몰라 궁금한 요리를 선택하면 구글 렌즈가 그 내용을 설명해 주게 됨프랑스어나 이탈리아어 등으로 적혀 있을 경우에는 선택 후 번역(Translate)’ 버튼을 터치하면 되는데, 요리의 종류가 무엇이고 주요 사용 재료가 무엇인지를 설명해 줌

<자료> Android Authority

[그림 4] 구글 렌즈의 스마트 텍스트 선택


스타일 매치(Style Match)’는 패션과 가구 등을 제안하는 기능인데, 구글 렌즈로 세련된 옷의 사진을 보면 그 옷과 동일하거나 유사한 디자인의 의류 상품을 제시해 주는데, 제시된 상품이 마음에 든다면 곧 바로 구매할 수도 있음


비단 의류만 그런 것은 아니고 신발이나 가방을 보면, 같은 취향의 상품을 표시해 주고 집안에서 구글 렌즈로 가구를 비추어도 유사한 가구 제품을 보여 줌


이미지로 유사 상품을 제안하는 기능은 아마존 등 쇼핑몰에서도 제공하고 있지만, 구글 렌즈는 카메라에서 포착한 라이브 이미지를 실시간으로 영상 분석한 다음 디자인이 비슷한 상품을 검색해 제시하기 때문에 보다 고도의 기술이 필요한 것임



<자료> Digital Trends

[그림 5] 구글 렌즈의 스타일 매치


◾ 구글 렌즈의 새로운 기능을 뒷받침하는 엣지 컴퓨팅 기반 실시간 분석은 현단계 최고 수준의 컴퓨터 비전 기술을 보여주나 배터리 과소모 등 해결해야 할 난제도 남아 있음


기술적 측면에서 구글 렌즈의 가장 큰 기능적 특징은 실시간 결과(Real-Time Results)’라 할 수 있는데, 말 그대로 실시간으로 객체를 파악할 수 있게 해 줌


구글 렌즈가 탑재된 카메라로 주위를 둘러보면 렌즈에 찍힌 객체 주변에 흰 점이 나타나는 것을 볼 수 있는데, 이 점들은 AI로 분석한 영역을 나타내는 것이며 실시간으로 파악한 후 관련된 정보를 표시해 주는 것임, 구글 렌즈는 시스템 아키텍처 상의 맨 끝(엣지, edge)에 위치한 스마트폰에서 AI로 이미지 분석을 수행하고 메타 정보를 클라우드로 전송하여 백엔드에서 검색 프로세스를 실행하는 구조임


<자료> Digital Trends

[그림 6] 구글 렌즈의 실시간 이미지 분석


이미지 분석에서 엣지 컴퓨팅을 사용한 것은 놀라운 일인데, 스마트폰의 제한된 컴퓨팅 자원으로 신경망을 가동시켜 이미지 분석을 수행해야 하는데다가, 빛의 조건이나 촬영 각도에 따라 이미지가 크게 바뀌기 때문에 개체 인식이 어렵기 때문임


구글은 엣지 컴퓨팅을 위해 클라이언트에는 구글이 자체 개발한 이미지 처리 전용 AI 프로세서인 픽셀 비주얼 코어(Pixel Visual Core)’ 탑재를 권장사항으로 하고 있고, 클라우드 상의 AI 처리에는 클라우드 TPU(Cloud TPU)'를 사용하고 있음


구글 렌즈는 클라어언트에서 실시간으로 연속적인 이미지 분석을 수행하는 구조를 갖추고 있어 최고의 컴퓨터 비전이라 할 수 있지만, 단 프로세서에 높은 부하가 발생해 스마트폰의 발열이 심하고 20분 정도 계속하게 되면 배터리가 바닥나는 문제가 있음


구글에 따르면픽셀 비주얼 코어칩이 표준 프로세서보다 속도가 5배 빠르고 전력 소비량은 10분의 1에 불과한데, 그럼에도 불구하고 구글 렌즈의 연속 사용시간이 20분에 불과하다는 것임


바꿔 말해 픽셀 비주얼 코어를 탑재하지 않은 스마트폰이라면 배터리 소모가 더욱 심할 것이기 때문에, 비판적으로 본다면 구글 렌즈는 아직까지는 컨셉에 가깝고 실제 일상적인 스마트폰 기능으로 사용하기엔 아직 요원하다 말할 수도 있음


이는 스마트폰이라는 제한된 컴퓨터 처리 용량과 배터리 용량을 가진 디바이스를 AI 분석의 단말기로 사용하기 때문에 발생하는 것으로 현재로서는 어쩔 수 없는 문제이며, 향후 지속적으로 해결해야 할 과제임


◾ 구글 렌즈는 일종의 증강현실 기반 이미지 검색으로 구글의 핵심 사업인 검색 서비스 강화가 목적으로 보이며, 기술이 안정화된다면 새로운 구글링 도구로 일상에 자리 잡을 전망


구글은 지난 2010년 이미지 검색 스마트폰 앱인 구글 고글(Google Goggles)'을 선보인 바 있지만 폭넓게 확산되지는 못했음


구글 고글은 랜드마크, 도서, 주소록, 예술작품, 장소, 와인, 브랜드 로고 검색을 이미지 검색으로 수행한다는 컨셉으로, 구글 렌즈가 하려는 기능과 사실상 동일함


<자료> Kliker

[그림 7] 구글 고글의 이미지 검색 기능


구글 렌즈는 구글 고글의 후속 사업모델인 셈인데, 고급 AI를 구현하여 검색 정확도가 크게 향상되었기 때문에 구글은 사용 확산은 기대하고 있음


구글 어시스턴트는 단어 검색 질의뿐 아니라 비디오와 이미지 검색 기능 실행을 통해 검색의 폭을 크게 넓히려 하고 있는데, 구글 렌즈는 구글 어시스턴트를 통한 이미지 검색 질의 건수 증가에도 기여할 것으로 보임


이미지 검색의 정확도를 높이고, 그 결과를 전자상거래와 곧 바로 연결한다는 점에서 구글 렌즈는 구글의 핵심 비즈니스에 가장 부합하는 것이라 할 수 있음


사용시간 문제 등 아직은 일상화하기에 부적합한 면이 있지만 구글 렌즈는 다양한 용도로 활용이 가능하기 때문에, 구글링이 일상적 행위로 자리 잡은 것처럼 구글 렌징도 배터리 문제만 해결된다면 이용자들의 일상 속에 녹아들 것으로 전망되고 있음