※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1804호(2017. 7. 12 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

웨어러블 기기의 건강 관리 정밀도를 높여주는 인공지능 기술.pdf



[ 요 약 ]


 1분기 전세계 웨어러블 시장에서 애플은 부동의 1위였던 핏빗을 3위로 끌어 내리고 처음으로 2위에 올라섰으며, 2분기 이후에는 1위를 유지가 예상되고 있음애플워치는 건강관리에 특화된 앱을 강점으로 내세우고 있는데특히 심박수 분석을 통해 심장 상태를 모니터 하는 카디오그램 앱이 큰 호응을 얻고 있음카디오그램은 현단계 센서 기술의 한계에서 기인한 데이터 부정확성을 인공지능 기술을 이용하여 보완함으로써 보다 정밀한 건강관리를 원하는 시장 수요를 공략하고 있음


[ 본 문 ]


ž IDC에 따르면 전세계 1분기 웨어러블 기기 시장에서, 샤오미와 애플이 이 분야를 개척해 온 핏빗(Fitbit)을 제치고 나란히 1위와 2위를 차지하였음


Ø 올해 1분기 전세계 웨어러블 기기 출하대수는 2,470만대로 전년도 같은 기간의 2,090만 대에 비해 17.9% 증가한 것으로 조사됨


Ø 샤오미는 전년 대비 3.3% 감소한360만 대를 출하했으나 시장점유율 14.7% 1위를 차지했으며, 애플워치를 내세운 애플은 1년 만에 64.1% 성장하며 시장 점유율 14.6% 2위에 올라섰음


Ø 눈에 띄는 것은 핏빗의 실적인데, 핏빗은 2016 4분기까지도 1위를 유지했으나 올 1분기에는 전년 동기 대비 37.7% 감소함 300만대 출하에 그치며 3위로 추락하였는데, 이런 여파 때문인지 핏빗은 최근 대규모 정리 해고를 통한 비즈니스 재구축에 나서고 있음


Ø 2분기 이후에는 핏빗의 하락세가 더욱 두드러질 전망이고, 샤오미 역시 1분기에 1위를 차지하기는 했지만 출하대수는 감소한 상태에서 핏빗의 급전직하에 따른 어부지리 성격이 강하기 때문에 2분기 이후에는 애플이 당분간 시장점유율 1위를 유지할 것으로 예상됨


ž 핏빗의 하락세와 애플의 강세를 가른 원인으로는 데이터와 기능과 정확도가 거론되고 있는데, 고정밀과 고기능을 요구하는 시장의 요구에 핏빗은 부합하지 못하고 있다는 평가


Ø IDC 1분기 실적 결과에 대해 사용자의 취향이 단순한 피트니스 밴드에서 시계 및 기타 기능이 탑재된 제품으로 옮겨가고 있다고 분석하고 있음


Ø 다른 업계 전문가들은 소비자들의 요구가 단순히 기능 추가에 있는 것은 아니며, 웨어러블을 구매하는 가장 큰 이유가 건강 관리를 위해서인데, 핏빗의 경우 센서의 기능과 정확도가 생각만큼 도움이 되지 않는다는 평을 받고 있는 것 같다는 분석을 내놓고 있음


Ø 단순히 걸음 수나 맥박 수를 체크하는 수준을 넘어서 점차 고정밀고정확의 데이터에 기반한 건강 관리 수요가 점차 높아지고 있는데, 애플은 이러한 소비자의 수요를 정확히 캐치하고 현재 기술의 단점을 보완하려는 노력을 해나가고 있다는 평


Ø 샤오미는 센서 기술의 정확도보다는 149 위엔( 2 4천원)이라는 가격 경쟁력과 최대 20일 간 유지되는 배터리를 앞세워 어필하고 있는데, 이는 애플의 전략과 차별화되는 점이며 핏빗에게는 다운스트림 세그먼트에서 강력한 압박 요인으로 작용하고 있음


[1] 2017 1분기 전세계 웨어러블 기기 시장 상위 5대 업체 점유율(단위: 백만 대)

제품 구분

2017 1Q

2016 4Q

2016 1Q

직전 분기

대비

전년 동기

대비

대수

점유율

대수

점유율

대수

점유율

샤오미

3.6

14.7%

5.2

15.2%

3.8

17.9%

-30.8%

-3.3%

애플

3.6

14.6%

4.6

13.6%

2.2

10.5%

-21.7%

64.1%

핏빗

3.0

12.3%

6.5

19.2%

4.9

23.2%

-53.8%

-37.7%

삼성전자

1.4

5.5%

1.9

5.6%

0.7

3.4%

-26.3%

90.8%

가민

1.1

4.6%

2.1

6.2%

1.1

5.4%

-47.6%

1.6%

기타

11.9

48.2%

13.6

40.1%

8.3

39.5%

-12.5%

43.9%

전체

24.7

100.0%

33.9

100.0%

20.9

100.0%

-27.1%

17.9%

<자료> IDC, IITP 재정리


ž 애플워치가 건강 관리 웨어러블로 자리를 잡아가고 있는 데에는, 현단계 센서 기능의 한계를 다른 기술, 특히 인공지능(AI)으로 보완하려는 전략이 기여하고 있음


Ø 2015년부터 외신에는 종종 애플워치 덕분에 목숨을 부지할 수 있었다는 소식들이 보도되고 있는데, 주로 몸의 상태가 좋지 않아 애플워치로 심장박동수를 확인해 봤고, 정상 수치 보다 높게 나와 병원에 방문했더니 의사가 늦었으면 큰일 날 뻔 했다고 말했다는 스토리임


Ø 미국에서만 연간 70만 명, 전세계적으로 연간 1,700만 명 이상이 심혈관 질환으로 사망할 만큼 심혈관 질환은 주요 사망 원인 중 하나지만, 여느 병과 마찬가지로 조기 발견하여 치료가 되면 생명을 구하고 중대 질환으로 번질 가능성을 낮출 수 있음


Ø 심장박동수 측정 기능은 애플워치에만 있는 것이 아니므로 다른 웨어러블 기기들도 긴급 상황에서는 도움이 되며, 심장박동수 측정 센서가 오작동하는 경우도 있지만 수치가 비정상적으로 높거나 기분이 좋지 않을 때는 일단 병원에 내원하는 것이 좋다고 의사들은 권고함


Ø 그러나 앞서 핏빗의 침체 원인에서 언급한 것처럼, 현재 웨어러블 기기들에 창작된 센서의 기능에는 한계가 있어 심박수 측정의 정확도는 불안정한 편이며, 따라서 건강한 사람들이라면 부정확한 수치나 오작동에 실망을 느껴 관심을 거두게 되는 경우도 적지 않음


Ø 애플워치 역시 심박수 센서 수치가 부정확한 문제를 동일하게 겪고 있기는 하지만, 애플은 정확도 보정을 위해 애플워치에서 수집한 심박수 수치를 인공지능(AI)으로 해석하여 심장의 상태를 감지하는 연구를 진행하고 있음


Ø 애플은 이를 바탕으로 병원에서 심전도 검사(ECG, Electrocardiogram)를 받지 않아도 애플워치에서 24시간 내내 심장의 상태를 모니터링 할 수 있다는 점을 마케팅 포인트로 어필하고 있음


ž 애플워치에 심장 상태 모니터링 기술을 제공하고 있는 기업은 헬스케어 스타트업인 카디오그램(Cardiogram)이며, 동명의 앱은 애플의 헬스키트(HealthKit)와 연동되어 있음


Ø 심박동 곡선을 뜻하는 카디오그램은 앱은 애플워치의 센서를 통해 측정한 신체 데이터를 분석하여 심장의 움직임을 파악하는데, 주로 운동 후에 심박수가 어떻게 반응하는지를 살핌


<자료> MobiHealthNews


[그림 1] 카디오그램 앱을 이용한 행동 효과 분석


Ø 또한 평상시의 심장 박동수를 모니터하고 스트레스 상황이나 식사 후에 신체가 어떻게 반응하는 지도 살피는데, 이런 방법을 통해 심장 질환을 감지해 내는 연구를 진행하고 있음


Ø 애플은 자사 혹은 써드파티들의 건강 관리 앱 개발의 기초가 되는 헬스키트(HealthKit)를 구축하고 있는데, 애플워치에서 측정된 신체 데이터는 이용자의 동의 하에 헬스키트에 축적됨


Ø 카디오그램 앱은 iOS용 건강관리 앱으로 개발되었기 때문에 헬스키트를 통하여 이용자의 신체 정보에 접근할 수 있고 데이터를 분석하여 건강에 관한 지식을 얻게 되는데, 이를 토대로 애플워치 이용자의 심박수, 서있는 시간, 칼로리 양, 운동시간, 걸음 수를 시각화하여 표시해 줌


Ø 카디오그램은 증거 기반 행위(Evidence-Based Behavior)라는 방법론을 사용하여 심장의 움직임을 파악하는 기술을 개발하고 있는데, 이는 일상생활에서의 행동이나 운동이 생체에 미치는 영향을 검증한 후 이용자에게 제시함으로써 행위를 강화해 주는 데 목적이 있음


Ø 예를 들어 2주 동안 조깅을 했다면 이것이 심장 박동에 어떻게 영향을 미치는지를 분석하여 만일 심박수가 7% 낮아졌다면 이 행위는 건강에 효과가 있다고 판정하는 것이며, 건강 관리에 도움이 된다는 증거를 이용자에게 정확히 보여줌으로써 조깅을 계속 하도록 유도하는 것임


Ø 조깅 외에 자전거, 명상, 요가, 수면 시간 등이 인체에 미치는 영향을 분석하는 프로그램도 갖추고 있으며, 스마트폰을 끊는 것이 건강에 긍정적으로 작용하는지를 검증하는 메뉴도 있음


ž 카디오그램은 현재 UCSF 대학과 공동으로 애플워치로 얻은 데이터를 AI로 분석해 심장 이상 여부를 감지하는 연구를 진행하고 있는데, 정확도는 97% 정도라고 함


Ø 카디오그램이 UCSF(캘리포니아 대학 샌프란시스코)와 진행 중인 공동 작업의 명칭은 m리듬 연구(mRhythm Study)인데, 6,185명을 대상으로 애플워치에서 수집한 심박 데이터를 분석하여 부정맥의 일종인 심방세동(Atrial Fibrillation)을 감지하는 것임


Ø 심방세동은 심장 근육층에서 일어나는 빠르고 조화롭지 않은 불규칙한 수축 현상인데, 정상적인 심박수는 분당 60~100회이지만 심방세동 환자의 분당 심박수는 최소 400회 이상이 되며, 현상이 지속되면 심부전증으로 이어질 수 있다고 함


Ø 임상 시험 결과 심방세동 판정 정확도는 매우 높은데, 연구팀은 97%의 확률로 심방세동을 감지 할 수 있었다고 보고하고 있음


Ø 애플워치에서 수집한 신호로부터 심방 세동을 감지하는 알고리즘에는 인공지능(AI)이 사용되고 있는데, 이 알고리즘은 나선층(Convolutional Layer)장단기 기억층(Long Short Term Memory networks Layer)을 조합한 4계층 구조로 되어 있음


<자료> Cardiogram

[그림 2] 카디오그램의 4계층 알고리즘


Ø 알고리즘에 심박수를 입력하면 시간 단계마다 스코어를 출력하는데, 이 스코어가 곧 심방세동이 발생하는 확률이며, 따라서 애플워치를 차고 있는 사람은 시간대 별로 언제 심방세동이 일어났는지를 즉각 파악할 수 있음


Ø 이것이 사실이라면 병원에서 ECG 검사를 하지 않아도 시판 중인 웨어러블 기기에 AI를 결합하여 심장 질환을 파악할 수 있다는 뜻이므로, 현재 이 연구결과에 큰 관심이 쏠리고 있음


ž m리듬 연구의 과제는 알고리즘의 정확도를 높이기 위한 대량의 기계학습 데이터를 확보하는 것인데, 이를 위해 연구팀은 모바일 ECG 검사 기기로 데이터를 축적하고 있음


Ø m리듬 연구에서 알고리즘을 학습시키기 위해서는 애플워치에서 수집한 심박신호 데이터와 ECG에서 측정한 심전도 데이터를 각각 대량으로 확보해야 하며, 이를 토대로 환자에게서 심방세동이 발생했을 때 양 데이터 신호 사이의 관계성을 형성하는 것이 관건이 됨


Ø 그러나 심전도 데이터는 병원에서 심장질환 환자의 ECG 검사를 통해 얻는 것이 대부분이며 그 수는 한정될 수밖에 없는 한계가 있고, 따라서 m리듬 연구에서는 모바일 ECG 측정 장치의 하나인 카르디아 모바일(Kardia Mobile)을 이용하였음


<자료> Cardiogram


[그림 3] 휴대형 ECG 기기 카르디아 모바일


Ø 카르디아 모바일은 스마트폰과 연동해 작동하는 심전도 측정 장치로 두 개의 전극에 피험자가 손가락을 대고 있으면 심전도 측정이 가능


Ø 측정 시간은 30초 정도 걸리며 결과는 스마트폰에 표시되는데, m리듬 연구에서는 카르디아 모바일을 이용해 6,338건의 데이터를 수집하고 이를 알고리즘을 학습시키기 위한 자료로 사용


Ø 카르디아 모바일은 재미난 기기 정도로 보일 수도 있지만 FDA(미 식품의약국)의 승인을 받은 최초의 모바일 ECG 기기로, 가격이 99달러여서 누구나 쉽게 구매해 심전도를 측정할 수 있기 때문에 병원은 물론 일반 미국 가정에 보급이 시작되고 있음


ž 웨어러블 시장이 여전히 불투명하다는 의견도 많지만, 높아지는 건강관리 수요에 대한 대응 여부가 향후 변곡점이 될 것으로 보이며, 여기에는 AI가 중요한 역할이 할 것으로 예상


Ø 현재 웨어러블 기기 카테고리의 대표 품목은 핏빗으로 대변되는 피트니스 밴드와 애플워치로 대변되는 스마트워치라 할 수 있음


Ø 핏빗의 출하대수 급감에서 알 수 있듯이, 피트니스 밴드형 제품들은 센서 기능의 불완전성 등의 요인 때문에 소비자들로부터 존재감이 약해져 가고 있으며 점차 스마트워치의 한 기능으로 수렴되어 가는 추세임


Ø 반면 스마트워치 제품들은 성장세를 보이고 있지만 여전히 활용성 부족 문제를 겪고 있는데, 소비자들은 시계와 스마트폰 이상이기를 원하지만 실제로는 시계로 쓰기도 힘들고 스마트폰을 대체하지도 못하는 애매한 가치 포지셔닝에 있다는 지적이 많음


Ø 따라서 피트니스 밴드 수요자들이 스마트워치로 옮겨가고 있지만, 기능면에서 차별화된 가치 제공을 하지 못하거나, 가격 측면의 확실한 메리트가 없다면 자칫 피트니스 밴드와 스마트워치 시장 모두 성장이 지체될 수 있다는 우려도 나오고 있음


Ø 이런 면에서 스마트워치를 이용해 소비자들의 높아진 건강관리 수요에 대응하려는 시도는 기존 피트니스 밴드 이용자들을 견인하고 스마트워치만의 차별화된 가치를 요구하는 소비자들을 끌어들이기 위한 효과적인 전략이 될 것으로 보임



Ø 애플에 이어 구글 역시 웨어러블을 이용해 심장 상태를 모니터 하는 연구를 진행 중인데, 알파벳 산하 디지털 헬스케어 사업을 담당하고 있는 베릴리(Verily)1만 명의 생체 데이터를 분석하여 건강한 상태를 파악하기 위한 프로젝트를 전개하고 있음


Ø 베릴리의 베이스라인 프로젝트(Baseline Project)는 건강한 인체 상태가 무엇인지 그 기준을 정의하고, 여기에서 벗어날 경우 이용자에게 경고 메시지를 보내는데, 베릴리는 이를 위해 올해 4월 시계형 바이오 센서인 스터디 워치(Study Watch)를 발표한 바 있음



<자료> Verily

[그림 4] 구글 산하 베릴리의 스터디 워치


Ø 베이스라인 프로젝트의 정확한 연구 메커니즘은 공개되지 않았으나, 현재 센서의 기능에는 한계가 있으므로 스터디 워치를 통해 수집한 데이터와 다른 의료 데이터를 종합하여 분석하는 작업에 애플과 마찬가지로 AI 기술을 적용해 보완할 것을 예상해 볼 수 있음


Ø 헬스케어 수요가 전형적인 선진국형, 고소득층의 수요임을 감안할 때, 스마트워치의 센서 기능과 AI의 결합으로 비용 대비 효과적인 건강 관리 도구를 제공할 수 있다면 웨어러블 시장의 폭발적 성장이 현실화될 수 있을 것으로 기대됨


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1804호(2017. 7. 12 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

예술 창작 활동의 대중화를 가져올 인공지능 프로그램들.pdf



ž 구글은 바흐의 음악을 기계학습 시킨 후 바흐 풍의 클래식 곡을 자동으로 작곡해 주는 인공지능(AI) 프로그램을 공개하고 있음


Ø 구글이 공개한 클래식 작곡 프로그램은 예술 창작에 특화된 인공지능 알고리즘을 개발하려는 구글 마젠타(Magenta) 프로젝트의 일환임


Ø 마젠타 프로젝트는 구글이 알파고를 개발한 딥마인드(DeepMind)와 협력을 통해 새로운 음색, 새로운 악기, 새로운 음악을 만들려는 시도임


Ø 마젠타 프로젝트는 우선 신경(Neural)과 신써사이저(Synthesizer)의 합성어인 엔신쓰(NSynth)라는 도구를 만들고, 1천여 가지 악기와 30만여 가지의 음이 담긴 데이터베이스를 구축한 후 이를 알고리즘에 학습시켜 새로운 소리와 음악을 만들어 내고 있음


Ø 베이스기타와 플룻, 하프와 클라리넷을 합성하는 방식으로 이전에 없던 소리를 만든다는 것인 것, 이를 통해 일렉트릭 기타처럼 새로운 음악 장르를 여는 계기를 만들 수 있기를 기대한다는 것이 구글측의 설명임


Ø 마젠타 프로젝트는 소리 합성의 기능뿐 아니라 뮤지션들이 연주했던 곡을 기계학습 하여 기초적인 수준이나마 스스로 곡을 작곡(합성)할 수 있는 단계에 이르렀는데, 바흐 풍의 음악 작곡은 이런 과정을 거쳐 가능해졌음




ž 구글은 마젠타 프로젝트를 통해 만든 작곡 알고리즘과 엔신쓰 도구를 오픈소스 소프트웨어 허브인 깃허브에 공개하여 누구나 테스트해 보도록 하고 있음


Ø 직접 시연해 보려면 마젠타 프로젝트가 컨테이너 관리 소프트웨어인 도커(Docker)용으로 제공하는 미리 설정된 환경을 이용해야 하는데, 작동 환경은 리눅스 우분투(Ubuntu 16.04 LTS)


Ø 마젠타는 단음의 선율과 화음을 수반한 곡 등을 자동으로 생성하는 AI를 탑재하고 있는데, 명령어를 통해 단음의 멜로디를 미디(MIDI) 형식으로 출력해 윈도우의 미디 플레이어에서 재생할 수도 있고, 화음을 출력하는 학습된 모델을 이용해 작곡을 시킬 수도 있음



Ø 작곡의 경우 처음 몇 음표만 입력하면 알고리즘이 기계학습 한 결과를 토대로 그 화음에 맞는 곡을 자동 생성하는 것인데, 구글은 이번에 마젠타 프로젝트를 발표하며 첫 4개 음표를 주고 생성한 80초짜리 피아노곡을 공개한 바 있음


Ø 직접 해보고 싶다면, 가령 첫 부분에 연주하는 화음을 「--primer_pitches = [60 64 67]」라는 명령어로 표현할 수 있는데, 60 C(), 64 E(), 67 G()을 의미하며, 64 대신 63을 입력하면 반음 떨어지는 단조의 음으로 화음을 시작하는 곡을 만들 수 있음


Ø 첫 화음을 설정하고 나면 「--inject_primer_during_generation」 명령어 옵션을 사용하여 작곡을 시킬 수 있는데, 말 그대로 첫 화음을 작곡 중에 삽입하라는 뜻으로, 지정된 멜로디 주제가 반복적으로 전개되는 곡이 만들어지게 되는 것임


<자료> ITPro

[그림 1] 마젠타 음악 AI의 작곡 명령어



Ø 마젠타의 방식은 AI가 학습된 대로 곡을 합성해 내는 것이지만, 이용자가 설정한 주제 화음을 바탕으로 곡을 전개하는 것이므로, 이용자와 AI가 콜라보를 하는 듯한 느낌을 주게 되며, 음악을 전혀 배우지 않은 사람들이라도 작곡에 재미를 갖게 할 수 있음


<자료> ITPro

[그림 2] 마젠타 AI 작곡 음악을 악보로 출력


ž 마젠타가 음악 분야 창작 지원 도구라면, 스타트업 프리퍼드 네트워크(Preferred Networks)는 선으로 그린 일러스트에 자연스럽게 색을 입혀 주는 회화 AI를 공개하고 있음


Ø 이 스타트업이 개발한 페인트체이너(PaintsChainer)는 자체 개발한 기계학습 라이브러리인 체이너(Chainer) 상에서 구동되는 프로그램과 학습모델로 웹사이트에서 시험해 볼 수 있음


Ø 페인트체이너 역시 마젠타와 마찬가지로 컨테이너 관리 소프트웨어인 도커를 이용해 클라이언트를 설정한 후 시작해야 함


Ø 도커의 작동 환경은 리눅스 배포판인 우분투(Ubuntu 16.04 LTS)이며, 도커 설치 후 명령어를 통해 페인트체이너의 실행 환경을 다운로드 하여 시작하는데, PC CPU로만 처리하는 컨테이너를 작동시키는 경우와 엔비디아의 GPU를 사용하는 경우의 실행 명령어가 다름


Ø 자동 착색만 하는 경우라면 CPU만으로도 수십 초 정도면 처리가 끝나기 때문에, 단지 몇 군데 색을 입히려는 정도라면 CPU 버전이 간편하다고 함


Ø JPEG PNG 포맷의 흑백 이미지를 참조 버튼을 눌러 불러오면 페인트체이너가 자동으로 색을 입혀 주게 되며, 출력 결과는 폭 512도트로 크기가 자동 조정되는데, 512 도트보다 큰 이미지의 경우 크기 조정에 따른 선의 긁힘이나 소실이 발생하고 착색이 잘 안 될 수 있다고 함


Ø AI가 자동으로 색을 입힌 결과가 취향에 맞지 않을 경우 임의의 위치에 펜 도구로 색칠을 하여 AI힌트를 줄 수 있는데, 색칠을 다 할 필요는 없고 점과 선으로 표시해 주는 정도로 충분하며, 힌트를 주는 위치에 따라 전체 그림의 성향이 확 바뀔 수 있다고 함


<자료> CreativeAI

[그림 3] 페인트체이너를 이용한 자동 채색



ž 마젠타나 페인트체이너 같은 자동 창작 프로그램은 보다 많은 사람이 창작에 재미를 느낄 수 있게 할 수 있으므로 예술의 대중화라는 관점에서 긍정적 효과를 기대할 수 있음


Ø 인공지능을 작곡, 회화, 시나리오 및 영화제작 등 창작 영역에 접목하려는 시도는 이미 다양한 프로젝트들을 통해 시도되고 있고 기대 밖의 성과를 거둔 사례들도 소개되고 있음


Ø 이런 시도에 대해 창의성이 바탕이 되는 예술 분야마저 AI가 인간을 밀어내는 것이 아니냐는 우려도 있지만, 예술을 좀 더 재미있게 받아들이게 되는 긍정적 효과를 기대할 수도 있음


Ø 음악 작곡이나 그림 그리기를 자신과 전혀 무관하게 생각하던 사람이라도 AI의 도움으로 직접 활동에 참여를 하며 재미를 느끼게 된다면, 예술 활동에 좀 더 많은 시간과 비용을 투자하게 될 것이고 이는 결국 예술산업의 발전으로 이어지는 효과를 거둘 수 있음


Ø 예술의 지속성을 위해서는 창작자들의 끊임없는 창의성 발현과 함께 그 창작물을 기꺼이 즐겨줄 예술 소비자들이 존재가 필수적인데, 이는 예술의 대중화를 통해서 가능한 것이고, 예술 소비의 저변 확대 측면에서 본다면 AI 기반 창작 프로그램들은 큰 기여를 할 수 있을 것임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1803호(2017. 7. 5 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI 이용해 테러 대응 정책 강화에 나서는 페이스북과 구글.pdf



ž 페이스북은 인공지능(AI)을 이용하여 SNS 서비스 내에서 유포되는 테러 관련 콘텐츠를 제거하기 위한 대책을 강화해 나가겠다고 발표


Ø 페이스북은 테러리스트와 극단주의자들의 선전 유포의 장이 되고 있다는 비난을 종종 받아왔는데, 지금도 테러 조직이 게시한 내용과 테러 행위를 지지하는 내용의 콘텐츠를 신속하게 조사해 제거해오고 있지만 최근 들어 AI를 활용한 대응 방안도 시작했다고 강조한 것


Ø 구체적으로 살펴 보면, 페이스북에서 과거에 삭제된 적이 있는 테러 조직이 올린 사진과 동영상을 AI에 학습시킨 후, 누군가 그런 이미지를 올리려고 하면 AI가 저지하게 한다고 함


Ø 또한 ISIS와 알 카에다 등 테러 조직을 옹호하는 글을 식별하는 데 AI를 사용하여 텍스트 기반의 신호를 개발하였고, 시험적으로 알고리즘을 구현한 상태라고 함


Ø 이와 함께 지금까지 테러와 관련되어 비활성화 시킨 다수의 계정과 친구로 연결되어 있거나 혹은 공통된 속성을 가지고 있는 계정을 검출함으로써, 테러를 옹호하는 계정이 반복적으로 생성되는 것을 방지할 계획이라고 밝혔음


Ø 페이스북은 현재 ISIS와 알 카에다 및 관련 조직에 관한 내용을 중심으로 최신 기술을 적용하고 있지만 다른 테러 집단에 대해서도 순차적으로 대응책을 넓혀 갈 예정이라고 함



Ø 또한 AI와 알고리즘만으로는 제거해야 할 테러 관련 내용을 모두 식별하여 판단하는 것은 어렵기 때문에 사용자들의 신고를 바탕으로 조사하는 감시 요원도 늘릴 계획인데, 현재 4,500명의 인원에 더해 새롭게 3천 명을 추가 고용해 감시 체계를 강화한다는 계획임


ž 구글 역시 동영상 공유 사이트 유튜브에서 테러 관련 콘텐츠를 완전 소멸하기 위한 4 가지 전략을 발표하고, 유해 콘텐츠 제거에 새로운 기술을 도입할 것이라 밝힘


Ø 구글은 지난 몇 년 동안 유튜브 정책에 위반하는 콘텐츠를 식별해 제거하려는 노력을 해왔으나 불행히도 새로운 대책이 필요한 지경에 이르렀다는 점을 인정할 수밖에 없다며, 새로운 기술을 도입한 유해 콘텐츠 제거를 시도하겠다고 설명


Ø 새로운 방법이란 이미지 분석 모델의 도입을 말하는데, 지난 6개월 동안 삭제된 내용의 50%는 분석 모델이 이미 감지했다고 하며, 향후 콘텐츠 분류의 정확도를 높이기 위한 기계학습 연구에 더 많은 엔지니어링 자원을 투입할 것이라고 함


Ø 기술의 활용과 함께 전문가도 강화하는데, 문제가 있는 특정 콘텐츠에 대해 써드파티 기관과 협력하는 프로그램인 트러스티드 플래거(Trusted Flagger)에 새로 50개의 NGO를 추가하였음


Ø 또한 명확하게 유튜브의 정책에 위배되지는 않는 동영상에 대해서도 보다 엄격한 조치를 할 방침인데, 가령 선동적인 종교 관련 및 인종 우월주의적 동영상에는 경고를 표시하고 광고 게재나 댓글 달기를 할 수 없게 하며 추천 목록에 포함시키지 않아 찾기 어렵게 한다는 계획


Ø 한편, 알파벳 산하 기업인 직소(Jigsaw)리디렉트 메소드(Redirect Method)’ 기술을 유럽 전역에 광범위하게 도입할 것인데, 리디렉트 메소드는 타깃형 광고 기술을 사용하여 ISIS에 공감하는 사용자에게 ISIS 참여를 단념하게 만드는 반테러 동영상이 전달되도록 하는 데 이용됨




※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1802호(2017. 6. 28 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

페이스북 인공지능 연구소, 협상 능력을 가진 채팅봇 개발.pdf



ž 페이스북은 자사의 인공지능 연구팀(FAIR: Facebook Artificial Intelligence Research)이 교섭력을 갖춘 대화형 AI 봇을 개발했다고 발표


Ø 페이스북은 대화 에이전트(Dialogue Agent)라 부르는 이 로봇 기술의 소스 코드를 깃허브에 무료로 공개했으며, 기술 내용을 소개하는 논문도 발표하였음

end-to-end-negotiator.pdf



Ø FAIR에 따르면, 어떤 TV 프로그램을 볼 것인지 결정하거나, 어린 애들이 먹기 싫어하는 야채를 먹이거나, 좀 더 싼 가격으로 쇼핑을 하거나, 인간의 일상생활은 협상의 연속이라 할 수 있으며, 이 협상에는 복잡한 커뮤니케이션과 판단 기술이 필요함


Ø 그러나 이용자를 대신해 가상 비서 역할을 할 수 있다고 내세운 기존의 채팅 봇이 실제 대응할 수 있는 것은 레스토랑 예약 등 간단한 작업에 필요한 짧은 대화능력 정도임


Ø FAIR가 개발한 대화 에이전트는 서로 다른 목적을 가진 인간끼리 대화로 타협점을 찾는 것과 마찬가지로 다른 채팅봇 또는 인간과 협상하며 공통의 해결책을 도출하는 것이 목표임



<자료> Facebook


[그림 1] 2개의 채팅봇이 물건을 나누는 협상 과정을 학습


ž FAIR 2개의 봇에 여러 항목의 그룹(: 2, 모자 1, 3)을 보여 주고, 그것을 서로 나누어 갖는 등의 협상을 학습시켰다고 함


Ø 교육에 앞서 우선 실제 인간 사이의 협상 사례를 모은 다음, 그것을 기초로 봇에 반복 훈련을 시켰으며, 협상시의 인간다운 말투에 대해서도 학습과 조정을 거듭했다고 함


Ø 성능 테스트를 위해 대화 에이전트가 온라인으로 인간과 협상(대화 언어는 영어)을 하도록 시킨 결과, 대부분의 시험 대상자는 상대가 로봇임을 눈치 채지 못했다고 함

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1799호(2017. 6. 7 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI가 AI를 개발한다, 구글의 전사 인공지능 프로젝트 Google ai.pdf



[ 요 약 ]


작년 11인공지능 퍼스트(AI First) 기업을 선언했던 구글의 선다 피차이 CEO는 올해 구글 I/O 컨퍼런스에서 그간의 성과를 설명하며 인공지능을 구글의 모든 제품과 서비스의 기반으로 삼는다는 전략 하에 Googl.ai 프로젝트를 진행 중이라고 설명. Google.ai의 연구 테마에는 사람이 아닌 인공지능이 인공지능의 알고리즘을 설계하는 AutoML이 포함되어 있으며, 이 연구 성과를 바탕으로 구글의 제품을 개선하고 인공지능 연산 처리를 위한 새로운 데이터센터를 구축한다는 계획


[ 본 문 ]

ž구글은 최근 개최된 연례 개발자 컨퍼런스 ‘Google I/O 2017’에서, 전사 차원의 인공지능(AI) 전략으로 ‘Google.ai’ 프로젝트를 진행 중이라고 공개


Ø 작년 11월 제품 발표회에서 인공지능 최우선(AI First) 기업을 선언한 바 있는 선다 피차이 CEO는 올해 I/O 컨퍼런스 기조연설에서 전사 차원의 AI 전략을 실행 중에 있다고 밝히며 프로젝트의 세부사항에 대해 발표하였음  구글은 최근 개최된 연례 개발자 컨퍼런스 Google I/O 2017에서, 전사 차원의 인공지능(AI) 전략으로 Google.ai 프로젝트를 진행 중이라고 공개

<자료> Engadget


[그림 1] Goolge.ai를 발표하는 선다 피차이 CEO


Ø 현재 진행 중인 전사 프로젝트의 명칭은 Google.ai로 고도의 AI를 개발하고 이를 구글의 모든 제품과 서비스의 기반 기술로 삼는다는 전략을 구현한 것임


Ø 진행 중인 Google.ai 프로젝트는 「기초연구」, 「도구」, 「응용기술」의 세 분야로 구성되어 있는데, 기초 연구는 고도의 AI 기술의 개발을, 도구는 AI를 실행하는 프로세서 등에 기반한 AI 데이터 센터의 제공을, 응용기술은 AI를 통한 구글 서비스의 개선을 목표로 하고 있음


ž 「기초연구」 분야에서 구글이 주목하고 있는 연구 테마는 AutoML인데, 이는 AI AI를 생성하는 기술의 개발을 통해 알고리즘 개발 임무를 인간에서 AI로 이관하려는 것임


Ø AutoML은 기계학습(Machine Learning)을 자동 생성하는 연구, 다시 말해 알고리즘이 다른 알고리즘을 생성하는 기법을 개발하는 것으로 [그림 2]AI AI를 생성하는 것을 보여주는데, 왼쪽이 인간이 만든 AI 알고리즘이며 오른쪽은 그 AI가 만들어 낸 딥러닝 알고리즘임


Ø [그림 2]의 사례는 처리 결과를 다음 단계로 루프시키는 반복(Recurrent) 구조의 네트워크로 시간에 의존하는 언어처리 등에 따라 언어 처리 등에 사용될 수 있는데, 이 알고리즘에 한 단어를 입력하면 다음 단어를 예측해 줌


<자료> Google Research Blog


[그림 2] 사람과 인공지능이 설계한 기계학습 알고리즘 아키텍처 비교


Ø AI가 생성한 알고리즘 아키텍처를 보면 사람이 설계한 것과 동일한 특징을 공유하기도 하지만, 증식적인 조합을 구현하기 위해 새로운 엘리먼트를 구사하는 것처럼 주목할 만한 차이를 보이는데 이런 방식은 사람이라면 반복 구조의 네트워크에서 대개는 사용하지 않는 것임


Ø 보통 알고리즘의 개발 연구자의 경험과 감이 크게 작용하며, 기존에 확립된 기술을 기반으로 개선점을 찾아 새로운 모델을 생성하게 됨


Ø 반면 AI는 수 많은 알고리즘을 생성하고 이들의 실제 학습 수행 정도를 파악하는 방법, 즉 피드백을 바탕으로 정확한 알고리즘을 만드는 방법을 학습함


Ø 인간은 소위 정석이라 불리는 것들을 축적하지만, AI는 때로 사람이 생각하기에 상식을 뒤집는 방식을 생성하는데, 선다 피차이 CEO의 설명에 따르면 인간이 생성한 알고리즘보다 AI 생성한 알고리즘의 정밀도가 더 높다고 함


Ø AutoML는 구글의 딥러닝 AI 리서치 센터인 구글 브레인(Google Brain)에서 연구 중이며 AI가 최적의 네트워크 구성을 자동으로 설계하는 것을 목표로 하는데, 이는 딥러닝 알고리즘 설계의 임무를 연구원에서 AI로 이관시킴을 의미함


Ø 이는 어찌 보면 AI 연구자 자신도 AI의 진화로 인해 일자리를 잃게 됨을 의미하나, 현재는 AI 연구자의 수가 절대적으로 부족하기 때문에 AutoML은 인력 부족을 해소하는 수단이 되며, 구글은 AI로 대체 가능한 연구인력을 AI 클라우드 개발로 돌려 관련 사업을 강화한다는 계획임


ž 「도구」 분야와 관련해서는 대규모 연산을 위한 확장성에 초점을 맞춘 인공지능용 프로세서로 Cloud TPU를 발표하였음


Ø TPU(Tensor Processing Unit)는 기계학습 연산 전용 프로세서인데, 텐서(Tensor) Trillion Sensor의 합성어로 향후 전세계가 수조 개의 센서들을 연결될 것이란 뜻을 담고 있음


Ø Cloud TPU 2세대 TPU로서 대규모 연산을 위한 확장성을 중시한 설계로 되어 있으며, 성능은 180Tflops(테라플롭스)64GB의 고속 메모리를 탑재한다고 함


Ø 플롭스(FLOPS, FLoating point OPerations per Second)는 컴퓨터의 성능을 수치로 나타내는 단위로 1초 동안 수행할 수 있는 부동소수점 연산의 횟수를 의미하며, 테라플롭스는 1초에 1조 번(1012) 연산 처리가 가능하다는 뜻


Ø 64개의 Cloud TPU가 보드에 탑재되면 TPU 파드(Pods)를 구성하게 되는데, 파드의 최대 성능은 11.5 Pflops(페타플롭스, 테라플롭스의 1천 배)로 이는 수퍼 컴퓨터 수준의 성능임



<자료> Engadget


[그림 3] 인공지능용 프로세서 Cloud TPU() AI 퍼스트 데이터센터(아래)


Ø TPU 파드는 랙에 탑재되어 구글 연산 엔진(Google Compute Engine)으로 제공될 것이며, 구글은 Cloud TPU를 이용한 AI 처리 전용 데이터 센터를 구축할 계획인데, 이를 AI 최우선 데이터센터(AI First Datacenter)라 부르고 있음


Ø Cloud TPU 발표와 동시에 구글은 텐서플로우 리서치 클라우드(TensorFlow Research Cloud)를 발표했는데, 이는 Cloud TPU 1천 개 연결한 연구자들을 위한 클라우드 서비스로 고도의 AI 기술 개발을 위해 무상으로 제공한다고 함


ž 「응용기술」 분야와 관련해서는 인공지능을 카메라에 응용한 신제품 구글 렌즈(Google Lens)를 적용 사례로 소개하였음


Ø 구글 렌즈는 카메라의 렌즈를 AI로 구성한다는 아이디어로, 카메라의 기능과 성능을 AI 소프트웨어가 결정한다는 뜻이며, 사진 촬영을 시작하면 카메라가 AI를 이용해 이미지를 재구성함


<자료> Google.ai


[그림 4] 카메라에 AI를 결합한 구글 렌즈


Ø 가령 [그림 4]처럼 야간 촬영 시 이미지에 노이즈가 있을 경우 AI가 이를 보정하는데, 셔터를 누르면 카메라가 자동으로 여러 차례(16, 32회 등) 빛에 노출시킨 후 노이즈를 제거하는 것을 반복하게 됨


Ø 또한 철조망 뒤에서 사진을 찍을 경우 AI가 자동으로 철조망을 제거하는 이미지 인페인팅(Image Inpainting) 기능도 갖추고 있음


Ø 구글 렌즈는 카메라에 비친 객체를 판정하는 기능이 있어, 가령 꽃 촬영에 구글 렌즈 기능을 선택하면 꽃의 종류가 무엇인지를 식별하고, 길거리 상점을 촬영하면 그 간판의 이름을 인식한 후 관련된 정보를 함께 표시해 줌


Ø 즉 카메라가 이미지 검색의 입력 장치가 되는 것으로 이는 구글 고글(Google Goggles) 등에서 이미 제공되는 기능이지만, AI를 이용하여 그 기능성과 인식 정확도를 향상시켰음


ž 드러나 보이지 않는 곳에서 AI를 이용해 구글의 서비스를 폭넓게 지원하는 응용 사례로는 구글 지도와 지메일을 소개하였음


Ø 카메라의 이미지 인식 기능을 AI와 접목하는 기술은 구글 스트리트 뷰(Street View)와 구글 지도(Google Maps)에도 적용되어 활용되고 있음


Ø 스트리트 뷰는 촬영된 이미지에서 건물에 부착되어 있는 숫자를 읽어 식별할 수 있었는데, 지금은 AI가 숫자뿐만 아니라 거리의 이름도 읽어 정확히 위치를 파악할 수 있음


Ø 표지판이 선명하게 찍혀 있지 않은 경우라도 샘플이 네 장 AI가 정확하게 판정할 수 있다고 하는데, 구글은 이 기술을 스트리트 뷰로 촬영한 800억 장의 이미지에 적용하여 위치를 파악하고 있기 때문에 구글 지도의 정확도를 크게 향상시켰다고 함


Ø 이미지 인식 기능의 활용은 와이파이 접속에도 이용할 수 있는데, 스마트폰으로 와이파이 네트워크 이름과 패스워드를 스캔하면 자동으로 와이파이에 연결하도록 도와줄 수 있음


Ø 스마트 회신(Smart Reply) 기능이 탑재된 지메일 역시 AI의 지원으로 구글 서비스 편의성을 강화한 대표적 사례인데, AI는 수신한 메일의 제목과 내용을 파악하여 이용자를 대신해 최적의 회신 문장을 생성한 다음 이용자에게 제시함


Ø 이용자는 AI가 제시한 세 개의 회신 문장 중에서 가장 낫다고 생각하는 하나를 클릭하는 것만으로 메일 회신을 할 수 있는데, 스마트 회신 기능이 등장한 지는 1년이 넘었으며 지금은 다소 복잡한 내용의 메일에도 회신 문장을 생성할 수 있는 수준이 되었음




<자료> Engadget


[그림 5] 인공지능 활용한 이미지 인식 기능 개선()과 이메일 자동 회신(아래)


Ø 이처럼 인공지능은 겉으로 드러나게 또는 드러나지 않게 기능성 향상에 기여하고 있으며, 구글은 이번 개발자 컨퍼런스에서 향후 자신들의 모든 제품과 서비스에 AI를 적용해 개선시키겠다는 목표를 밝힌 것임


ž 「응용기술」 분야와 관련해서 또 하나 주목할 것은 구글이 AI를 의료 분야에 적용할 계획임을 명시했다는 것으로, 향후 IBM 및 애플과 치열한 기술 경쟁을 예고하고 있음


Ø 구글은 이미 AI를 사용하여 당뇨 망막증(Diabetic Retinopathy) 판정 시스템을 발표한 바 있는데, 이 병은 당뇨 합병 질환으로 실명 위기까지 이어질 가능성이 높은 것으로 알려져 있어, 정확한 판정 시스템의 개발은 질병의 조기 발견과 치료에 상당한 기여를 할 것으로 기대되고 있음


Ø 구글에 따르면 AI는 이미 의사보다 높은 정확도로 당뇨 망막증 진환을 감지해 내는 데 성공했으며, AI를 의료 이미징에 활용할 수 있다는 것이 증명되자 구글은 자회사 딥마인드(DeepMind) 함께 의료 분야에서 AI 연구 개발을 중점적으로 추진하고 있음


<자료> Google


[그림 6] AI를 이용한 의료 이미지 판독


Ø 구글이 개발한 이미지 인식 알고리즘인 구글 인셉션(Google Inception)은 세계 최고 수준의 성능으로 평가받고 있는데, 구글은 누구나 자유롭게 이 소프트웨어를 이용하여 진단 및 치료 솔루션을 개발할 수 있도록 공개하고 있음


Ø 가령 구글 인셉션 소프트웨어를 피부암의 판정에 응용하면 전문의보다 정확하게 질병을 판정 할 수 있는 것으로. 나타났는데, 특별한 알고리즘이 필요하지 않아 암 탐지 시스템의 개발 문턱이 극적으로 낮아졌기 때문에 이미 피부암 판정 스마트폰 앱까지 등장하고 있는 상황


Ø IBM 왓슨의 선도적 비즈니스가 성과를 거두며 의료 분야에서 AI 활용에 대한 평가와 전망은 매우 긍정적인데, 구글과 기술 경쟁, AI 기반 의료 기술의 공개화 등 흐름과 맞물린다면, 의료 분야에서 AI 기반의 혁신 사례는 잇따라 등장할 것으로 예상됨


ž 구글은 자신들의 모든 영역에 AI를 적용하고자 하는 AI 최우선 기업으로서 그 성과를 어필했지만 이제 시작일 뿐이며, 시장 지향 AI를 향한 본격적 행보 선언에 그 의의가 있음


Ø 구글은 인공지능 퍼스트를 모토로 내세운 기업으로 그간의 연구개발 성과와 응용사례를 소개했지만, 이번 연례 개발자 컨퍼런스에서 새로운 비전을 제시하는 놀라운 기술과 제품은 등장하지 않았다는 평가가 지배적


Ø 구글 렌즈 등의 기능도 이미 일부 활용되고 있는 기술이고, AI를 음성 인식에 응용해 고급 자연언어처리 접목한 인공지능 스피커 '구글 홈이나 가상 비서 구글 어시스턴트도 이미 소개된 기술일뿐더러 이 분야에서는 오히려 아마존 에코와 알렉사가 시장을 선점하고 있는 상황임


Ø 이는 세계 최고 수준의 AI 기술을 보유하고 있는 구글이지만, 의료와 같은 특수 분야를 차치하고 나면 일상적으로 소비자들이 AI의 혜택을 느낄 수 있는 제품과 서비스를 개발한다는 것은 쉽지 않은 일이라는 것을 보여주는 대목


Ø 기술 특이점(singularity) 접근 전망과 함께 하루가 다르게 고도화되어 가고 있는 AI를 어떻게 제품과 서비스에 연결시킬 것인가에 대한 질문도 계속해서 나오고 있으며, 이에 대한 대답을 내놓는 것은 구글뿐 아니라 IT 업계가 공통으로 안고 있는 과제일 것임


Ø 그러나 어쩌면 소비자의 욕구와 잠재 욕망을 자극할 수 있는 AI 기반 제품과 서비스의 개발 역시 사람이 아닌 인공지능 스스로가 만들어 낼 지도 모를 일이며, 그런 면에서 AI AI를 만든다는 모토를 제시하고 있는 구글이 접근방식에서는 유리한 상황이라 할 수 있겠음


※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1798호(2017. 5. 31 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

인공지능 음성비서 서비스 탑재 기기 2021년 75억 대 이상 전망.pdf



ž 통신산업 시장조사기관 오범(Ovum)에 따르면 2021년 인공지능(AI) 음성인식 가상 비서 서비스를 이용할 수 있는 기기의 대수는 75억 대를 넘어설 전망


Ø 오범에 따르면 음성 인식 가상 비서 서비스는 현재 주로 스마트폰과 태블릿에서 이용되고 있는데, 2016년 말 현재 서비스 이용이 가능한 하드웨어 대수는 35억 대로 추산되며, 구글의 구글 나우(Google Now)와 애플의 시리(Siri)가 대부분을 차지하고 있음


Ø 그러나 2021년에는 현재 세계 인구를 넘어서는 75억 대에 이를 것으로 예상되며, 구글 어시스턴트(Google Assistant)가 점유율 23.3%로 선두를 차지할 것으로 예측됨


Ø 그 다음으로는 삼성전자의 빅스비(Bixby)14.5%, 시리가 13.1%, 아마존의 알렉사(Alexa)3.9%, 마이크로소프트의 코타나(Cortana)2.3% 점유율을 차지할 것으로 예측


Ø 기기 유형도 다양해져 향후에는 스마트폰과 태블릿 등 모바일 기기 외에도 스마트홈을 중심으로 새로운 기회가 열릴 것으로 예상되는데, 가상 비서와 음성 AI를 지원하는 스마트 홈 제품, TV, 웨어러블 기기의 수는 2021 년에 16 3천만 대에 달할 것으로 추정됨


<자료> Ovum


[그림 1] 2015-2021가상 비서와 음성 AI 지원 디바이스 추이 전망


Ø 특히 현재 인공지능 스피커 제품에 쏟아지고 있는 거대한 관심에도 불구하고, 비 모바일 기기 중에는 TV 기기(스마트 TV, 셋톱박스, 미디어 스트리머 등 포함) 57%로 가장 높은 점유율을 차지할 것으로 전망


ž 지역적 관점에서 보면, 음성 인식 가상 비서 서비스 이용은 북미 중심에서 벗어나 전 지구적 서비스로 확산될 것으로 예상됨


Ø 2016년 말 현재 아마존 알렉사와 구글의 구글 어시스턴트의 경우 북미 지역의 이용자 점유율이 95%에 이를 정도로 지역적 편중이 심한 상태이나, 2021 년에는 서비스가 전세계로 확산되고 아시아와 오세아니아 지역이 47.6%의 점유율을 차지할 것으로 전망됨


Ø 아시아 지역에서는 당연히 중국 시장의 성장이 두드러질 것인데, 2016년 기준 중국어를 지원하는 음성 비서 서비스 제공 하드웨어 기기 대수는 4,300만 대 수준이며, 바이두(Baidu)와 아이플라이테크(iFlytek) 등의 업체가 선도하고 있음


Ø 그러나 2021년에 중국어를 지원하는 음성 비서 서비스 제공 하드웨어 수는 12억 대에 달할 것으로 예상되며, 이는 애플의 시리와 삼성전자의 빅스비와 비슷한 규모가 될 것으로 보임

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1792호(2017. 4. 19 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

화가와 인공지능의 패스티쉬 대결 예술로 가는 AI.pdf



[ 요 약 ]


빈센트 반 고흐의 일생을 고흐의 화풍으로 그린 6 5천장의 유화 작품으로 구성한 독특한 장편 애니메이션 러빙 빈센트에는 고흐 풍의 유화 제작을 위해 115명의 화가들이 참여하였음한편 영화 제작 기간 동안 구글은 인공지능(AI)이 특정 화가의 스타일을 습득한 다음 주어진 사진을 그 화가의 화풍으로 그린 그림으로 변환해 주는 기술을 발표하였음. AI를 이용한 패스티쉬(작품 모방)가 가능해짐에 따라 향후 인간과 AI의 협업을 통한 새로운 사업기회 모색이 활발히 전개될 전망


[ 본 문 ]


ž 영국의 영화사 브레이크스루(BreakThru Productions)는 최근 2011년부터 100여 명의 화가와 함께 작업해 온 장편 유화 애니메이션 러빙 빈센트(Loving Vincent)의 예고편을 공개


<자료> BreakThru

[동영상] 러빙 빈센트 공식 예고편


Ø 러빙 빈센트는 빈센트 반 고흐가 그린 작품과 함께 그의 작품 속 인물들과 가상 인터뷰를 통해 고흐의 삶과 인생을 내레이션 하는 애니메이션 영화로 반 고흐가 죽기 전 8년간의 인생에 초점을 두고 있다고 함


Ø 러빙 빈센트는 개봉 전부터 많은 관심을 받고 있는데, 세계 최초로 영화와 예고편 영상의 러닝타임에 등장하는 모든 프레임을 고흐 스타일의 유화 작품으로 구성했기 때문


Ø 영화 제작사는 화가로서 인생을 산 10년 동안 일주일에 약 두 점씩, 860여 점의 그림을 그리며 불꽃 같은 삶을 살다 간 빈센트 반 고흐의 삶을 고스란히 전달하기 위해 고흐 풍의 유화 애니메이션 영화를 만들게 되었다고 설명


Ø 영화의 프레임에 사용된 유화는 6 5천 점으로 영상 1초에 12점의 그림이 연사 된다고 하는데, 이를 위해 2011년부터 115 명의 화가가 유화 작업에 참여했다고 함



<자료> Hugh Welchman


[그림 1] 러빙 빈센트의 프레임 작화 방법


Ø 영화의 제작 방식은 배우의 연기를 카메라로 촬영한 다음 각 장면을 화가들이 유화로 그리는 것인데, 이를 위해 화가들은 고흐의 작품 스타일을 학습한 후 동영상의 프레임을 고흐 풍으로 모사하였음


Ø 가령 영화 속 고흐의 모습은 [그림 1]에서 보듯 고흐 역을 맡은 폴란드의 배우 로버트 굴락칙을 그린 유화로 표현되는데, 이 때 유화의 스타일은 고흐의 작품 자화상에 사용된 붓 터치 방식을 모방한 것임


ž 한편 영화의 제작이 한창이던 2015 9월 흥미롭게도 구글은 인공지능(AI)이 화가의 작품 스타일을 습득하고, 주어진 사진을 화가의 화풍을 따른 그림으로 변환하는 기술을 발표


Ø 영화 러빙 빈센트가 카메라로 촬영한 장면을 작가들이 고흐의 화풍을 모방하여 그린 것처럼, 구글은 인공지능을 대상으로 고흐의 스타일을 학습시킨 후 입력된 사진을 보고 이를 고흐 화풍의 유화로 변환하게 하는 기술을 개발한 것임


Ø 포스트 모더니즘의 대표적인 기법인 패스티쉬(Pastiche)는 패러디와 달리 비판하거나 풍자하려는 의도 없이 기존의 텍스트를 무작위적으로 모방하는 것을 말하는데, 영화 러빙 빈센트가 패스티쉬 기법으로 만들어진 것이라면, 구글은 인공지능 패스티쉬 기술을 개발했다 할 수 있음


Ø 구글은 회화를 패스티쉬 하는 심층 신경망(Deep Neural Network)의 연구개발 성과를 예술 스타일의 신경 알고리즘(A Neural Algorithm of Artistic Style)이라는 제목의 논문으로 발표하였음


Ø 발표 직후 이 짧은 논문은 개발자들은 물론 기술을 잘 모르는 일반인들에게도 관심을 불러 일으켰는데, 개발자 커뮤니티인 깃허브 등에서는 논문의 실효성 검증을 위한 프로젝트들이 만들어졌으며, 실험 결과 사진의 내용은 보존한 채 질감만 바꿔 출력할 수 있음이 검증되었음


ž 구글의 심층 신경망에 사진을 입력하면 여러 가지 스타일의 그림, 즉 유명 화가 여러 명의 화풍을 모방한 여러 장의 그림들로 변환해 줌


Ø [그림 2]에서 보듯 상단 왼쪽의 사진을 입력하면 윌리엄 터너의 The Shipwreck of the Minotaur(미노타우르스호의 난파)' 스타일, 반 고흐의 The Starry Night(별이 빛나는 밤) 스타일, 에드바르트 뭉크의 The Scream(비명) 스타일, 파블로 피카소의 Seated Nude(앉아있는 나부) 스타일, 바실리 칸딘스키의 Composition (구성 Ⅶ)’ 스타일의 그림으로 사진을 재구성함



<자료> A Neural Algorithm of Artistic Style


[그림 2] 사진을 5개 화풍을 따른 그림으로 변환


Ø 심층 신경망은 Convolutional Neural Network(CNN, 나선형 신경망, 이미지 인식 기능)을 사용하고 있는데, 하나의 신경망이 두 가지 기능을 가지고 있어 입력된 사진을 변환하는 동시에 화가의 작품 스타일을 학습함


Ø CNN은 각각의 레이어가 특징 량(feature)을 가진다고 보며, 이 특징 량들이 계층적(hierarchy)으로 쌓이면서 더 높은 레이어로 갈수록 더 좋은 특징 량을 만들어 낸다고 보기 때문에, 일반적으로 이미지 인식에서 월등한 성능을 낸다고 알려져 있음


Ø [그림 3]은 CNN에서 서로 다른 두 가지 방법으로 스타일과 콘텐츠를 레이어 별로 재구성 하는 것을 보여주는데, 위쪽은 고흐의 별이 빛나는 밤 스타일을 레이어 별로 재구성 한 것이고, 아래쪽은 튀빙겐에서 찍은 사진의 콘텐츠를 레이어 별로 재구성 한 것임


Ø 스타일 재구성에서 알 수 있는 것은 레이어가 얕을수록 원래 콘텐츠 정보는 거의 무시하고 질감(texture)을 복원하는 반면 깊은 레이어로 갈수록 점점 원래 콘텐츠 정보가 포함된다는 것으로, 현격한 특징 량을 추출하여 회화의 터치 등 화가의 스타일을 파악함


Ø 콘텐츠 구성을 보면, 낮은 레벨의 레이어는 거의 완벽하게 원본 이미지를 보존하고 있지만, 레이어가 깊어질수록 원본 이미지의 정보는 조금씩 소실되지만 가장 중요한 하이 레벨의 콘텐츠는 거의 유지가 되는 것을 볼 수 있음


Ø 논문은 이처럼 동일한 CNN이라 하더라도 콘텐츠와 스타일에 대한 재현이 분리가 되어 있다는 점을 중요하게 내세우고 있는데, 이를 통해 하나의 신경망을 이용해 서로 다른 이미지에서 서로 다른 콘텐츠와 스타일을 재구성하고 이 둘을 섞는 것이 가능한 것임


<자료> A Neural Algorithm of Artistic Style


[그림 3] 나선형 신경망(CNN)을 통한 스타일과 콘텐츠의 재구성 프로세스


ž 이후 구글은 CNN 기술을 보다 강화하여 새로운 논문을 추가로 발표하였는데, 이 논문은 이후 많은 스타트업들의 패스티쉬 앱 출시로 이어지게 되었음


Ø 구글이 기술을 강화해 발표한 후속 논문 A Learned Representation for Artistic Style(예술 스타일을 위한 학습된 재현)은 하나의 신경망으로 32 가지 스타일의 패스티쉬를 생성할 수 있는 프로세스를 소개하고 있음


Ø 또한 이 신경망은 입력된 이미지의 재구성을 실시간으로 실행하기 때문에 영상을 입력하면 재구성 된 영상이 출력되는데, 만일 러빙 빈센트 영화의 제작에 이 기술을 이용했다면 115명의 화가가 수만 장의 그림을 그릴 필요가 없었을 지도 모름


Ø 구글은 이 기술을 개발한 이유에 대해 새로운 예술의 문을 열기 위해서라고 밝히고 있으며, 화가의 스타일을 학습한 신경망은 스마트폰 앱으로 이용할 수 있을 것이라 말했음


Ø 실제로 이후 다수의 벤처기업들이 패스티쉬 앱을 출시하고 있는데, 그 중 가장 주목받은 앱은 프리즈마(Prisma)2016년 여름에 출시된 이후 5천만 다운로드를 기록하고 있음


Ø 프리즈마는 사진을 필터링 하거나 편집하는 앱과는 구조가 근본적으로 다른데, 구글의 CNN 기법을 사용하고 있어 AI가 사진을 분석한 후 학습된 유명 화가의 스타일로 재구성하며 사진을 회화의 예술로 다시 태어나게 함


Ø 사진을 입력한 후 원하는 회화 스타일을 선택하면 사진이 그림으로 변환되는데, 가령 몬드리안 스타일을 선택하면 사진이 가로 세로로 분할된 빨강, 파랑, 노랑의 삼원색으로 재구성됨



[그림 4프리즈마 앱의 몬드리안 스타일 변환


Ø 한편 최근 애플은 클립(Clips)이라는 자체 앱을 선보였는데, 이는 프리즈마 앱과 유사한 기능을 제공하기 위한 것으로 패스티쉬 앱의 인기가 일회성이 아님을 보여주는 반증이기도 함


ž 패스티쉬 앱은 새로운 예술 영역을 구축했다는 평가와 예술가들의 입지를 축소시킨다는 우려를 동시에 낳고 있는데, 예술 분야 역시 인간과 AI의 공존을 위한 모색이 필요할 전망


Ø 패스티쉬 앱의 보급과 함께 패스티쉬 팬도 크게 늘고 있는데, 인스타그램에는 프리즈마로 생성한 패스티쉬 작품이 다수 포스팅 되고 있음


Ø 아무 사진이나 변환한다고 해서 회화 예술이 되는 것이 아니지만 인스타그램에는 볼 만한 패스티쉬 작품이 다수 게재되어 예술의 새로운 영역을 구축하고 있다는 평가도 나오고 있으며, 매력적인 사진이 많은 인스타그램은 프리즈마로 회화의 즐거움이 더해져 더욱 풍부해지고 있음


Ø 반면, AI가 예술가의 일을 빼앗는 게 아니냐는 우려도 확산되고 있는데, AI가 동영상 패스티쉬도 생성할 수 있기 때문에 향후 러빙 빈센트 같은 애니메이션 영화가 추가로 제작된다면 예술가들이 불필요하게 될 것임을 지적하는 사람도 많음


Ø 이런 우려에 대해서는 예술가들이 패스티쉬를 제작하는 기계적 작업에서 해방되어 자신만의 창작 활동에 전념하게 될 것이라는 긍정적 반론도 있음


Ø AI는 반드시 모방할 원본을 필요로 하고 스스로 작품을 만들어내는 것은 아니기 때문에 복사의 범위를 벗어나지 못한다는 것이며, 결국 예술은 인간의 독창성에서 태어난다는 주장임


Ø 물론 이런 주장에 대해서는, 가령 알파고가 인간의 기보를 분석한 것이 아니라 알고리즘 스스로 만들어 낸 기보의 학습을 통해 인간 최고수를 꺾은 것처럼, 예술의 창작 역시 온전히 사람의 전유물이 아니며 AI도 얼마든지 창작 역량을 가질 수 있다는 재반론도 있음


Ø 이런 논란은 결국 회화 예술 분야 역시 인공지능과 인간의 협력, 또는 인간의 창작활동을 위한 AI의 지원 같이 인간과 AI이 공존을 위한 새로운 길의 모색이 필요할 것임을 시사


ž 예술가와 AI의 협업 모델 구축은 향후의 중요 과제로 남겠지만, 패스티쉬를 생성하는 AI를 이용한 새로운 비즈니스 창출 시도는 앞으로 활발히 전개될 예상됨


Ø 러빙 빈센트의 예에서 보듯 인간 예술가들이 수 년에 걸쳐 직접 패스티쉬를 만들기 보다 이를 AI에 맡겨 제작한다면 제작 시간을 단축 할 수 있게 되므로, AI는 우선 애니메이션 영화 제작 비즈니스에서 큰 잠재력을 가진 것으로 볼 수 있음


Ø 미야자키 하야오 같은 유명 애니메이션 아티스트의 스타일을 AI가 학습한다면, 아마 미야자키 하야오 감독의 은퇴 이후 인간이 아닌 AI가 감독의 영향을 가장 강하게 받은 후배로서 애니메이션 영화 제작을 주도할 수도 있을 것임


Ø 실제 프리즈마 앱은 이미 애니메이션 스타일로 변환하는 옵션도 제공하고 있어 이런 상상이 전혀 허황된 것은 아니며, 앞으로 애니메이션 창작 활동에서 인간과 AI가 담당해야 할 작업의 식별과 효과적 자원 배분은 영화 비즈니스의 핵심성공요소가 될 가능성이 높음


<자료> YouTube

[동영상] 프리즈마 앱의 애니메이션 생성 기능


Ø 영화 산업은 AI의 도입에 비교적 적극적인 산업의 하나로 이미 AI가 대본에 주도적으로 참여한 영화의 제작이 이루어지고 있으며, AI가 작곡한 음악을 영화의 배경음악(BGM)으로 사용하는 방안이 논의되고 있기 때문에 향후 적극적인 인간-AI의 협업 모델이 모색될 것으로 전망

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1788호(2017. 3. 22 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

구글 클라우드 넥스트_인공지능의 민주화.pdf


ž 구글은 클라우드 관련 연례 컨퍼런스인 구글 클라우드 넥스트(Google Cloud Next) 2017'의 기조 연설에서 인공지능의 다음 행보는 민주화라고 말했음


Ø 컨퍼런스 첫날 기조 연설에는 구글의 순다 피차이 CEO와 구글 클라우드 사업 부문을 이끌고 있는 다이안 그린 수석 부사장 등이 등장했으며, 새로운 기능의 발표는 작년 11 월 스탠퍼드 대학에서 구글로 자리를 옮긴 저명한 인공지능 연구자 페이-페이 리가 맡았음


Ø 리는 이미지 인식 알고리즘 개발에 필요한 데이터 세트를 연구자에게 제공하는 이미지넷(ImageNet) 프로젝트의 주역으로 알려져 있음


Ø 리는 구글로 옮겨서는 AI 및 기계학습 담당 수석 과학자를 맡고 있는데, 기조 연설을 통해 AI가 더 많은 사람들에게 이용될 때 비로소 사회와 경제에 큰 영향을 미칠 수 있다고 주장


Ø 리는 가령 모든 자동차가 자율운전 차량이 된다면 교통 체증이 크게 감소하고 주차장 부족 문제도 해소될 것이며, 나아가 도시가 근본적으로 변화될 것인데, 이런 점을 감안하면 인공지능에서 중요한 것은 스케일이라고 설명


Ø 아울러 누구나 AI를 사용할 수 있게 된다면 사회는 크게 변모할 것이며, 이를 위해서는 AI의 민주화 , 누구나 AI를 사용할 수 있는 환경을 만드는 것이 필요한데, 구글 클라우드 역시 이것을 실현하는 데 역할을 하게 될 것이라 설명


ž 리에 따르면 구글 클라우드는 인공지능의 민주화'를 실현하기 위해 총 4가지 차원의 민주화를 추진해 나갈 계획임.



<자료> Tech Republic

[그림 1] 인공지능 활용의 민주화


Ø 4가지는 계산 능력(컴퓨팅)의 민주화, 알고리즘의 민주화, 데이터의 민주화, 재능(인재) 민주화를 의미


Ø 컴퓨팅의 민주화를 실현하기 위해 구글은 기계학습에 필요한 컴퓨터 자원을 필요로 하는 사람에게 클라우드 기계학습(Cloud Machine Learning)을 제공하고 있는데, 클라우드 ML 2016 9월에 베타가 출시되었고, 이번 컨퍼런스에서 정식 버전으로 발표되었음.


Ø 알고리즘의 민주화를 위해 구글은 사용자가 알고리즘을 개발하지 않고도 이미지 인식 등의 인공지능을 자신들의 애플리케이션에 통합할 수 있도록 지원하는 각종 API를 클라우드 서비스로 제공하고 있음


Ø 리는 이번 컨퍼런스에서 새로운 API로서 동영상 인식 API 비디오 인텔리전스 API를 발표했는데, 이를 이용하면 구글 클라우드에 업로드 된 동영상의 피사체를 AI가 인식하여 피사체를 키워드 검색을 통해 찾아내는 것이 가능해 짐


Ø 인공지능 활용을 위한 API로 구글은 이미, 음성 인식 기능을 위한 클라우드 스피치(Cloud Speech) API, 이미지 인식을 위한 클라우드 비전Cloud Vision) API, 기계 번역을 위한 클라우드 번역(Cloud Translate) API, 자연어 분석을 위한 자연어(Natural Language) API를 제공 중


Ø 음성 인식이나 이미지 인식 API는 아마존 웹 서비스(AWS)와 마이크로소프트 등도 제공하고 있지만, 데이터 양이 커서 분석하는 데 많은 컴퓨팅 파워를 필요로 하는 동영상 인식 API를 제공하는 것은 구글이 처음


ž 데이터의 민주화를 위해 구글은 새로운 기업의 인수를 선택했으며, 재능의 민주화를 위해서는 누구나 이용할 수 있는 새로운 연구소의 설립을 결정


Ø 데이터의 민주화와 관련해 리는 캐글(Kaggle)의 인수를 발표했는데, 캐글은 전세계 데이터 과학자들에게 데이터 분석에 관한 과제를 제시하고 그 성과를 겨루게 하는 데이터 예측 공모전을 실시하고 있는 사이트임


Ø 지금까지 재야의 데이터 과학자는 캐글이 공개한 데이터 세트를 활용하여 알고리즘 개발을 연구할 수 있었는데, 구글은 캐글을 인수한 후 구글이 보유하고 있는 데이터 세트를 캐글을 통해 외부에 개방해 나간다는 방침


Ø 이번 기조 연설에서는 구글과 캐글이 앞으로 유튜브에 업로드 된 800만 건의 비디오를 사용한 동영상 인식 경연 대회를 개최한다는 발표가 있었음


Ø 재능(인재)의 민주화와 관련해서는 고등 솔루션 연구소(Advanced Solutions Lab, ASL)의 설립 계획을 발표하였음


Ø ASL은 구글이 서비스를 이용하는 기업과 연계하기 위한 사내조직으로, 이용 기업은 이 연구소에 소속된 기계학습 전문가로부터 알고리즘에 관한 교육을 받고 기계학습의 응용에 대해 상담하거나 클라우드 ML 등의 사용 방법에 관한 상담을 할 수 있음


ž 이번 기조 강연에서는 새로운 서비스에 대한 발표와 함께, 이를 이용 중인 대기업의 활용 사례 소개와 파트너 기업의 소개에 많은 시간이 할애되었음


Ø HSBC는 몇 년 전에 사내에서 빅데이터를 활용하는 플랫폼으로 기존의 데이터웨어하우스(DWH)에서 하둡(Hadoop), 스파크(Spark) 클러스터로 갈아 탔지만, 앞으로는 구글 클라우드 플랫폼의 이용을 검토 중이라고 함


Ø HSBC는 구글 클라우드 플랫폼이 제공하는 클라우드 ML 등의 기능을 돈세탁 색출과 무역의 위험 분석 등에 적용할 예정이라고 함


Ø 돈세탁을 검출하기 위해서는 금융 거래의 시계열 데이터에서 잘못된 패턴을 찾아내는 것이 중요하고, 무역 위험 분석을 위해서는 금융 시장 시뮬레이션 등을 수행하기 위한 대량의 컴퓨팅 파워가 필요한데, 이러한 용도에 구글 클라우드 플랫폼이 적합하다고 판단했기 때문


Ø 현재 엔터프라이즈 IaaS(인프라 서비스) 시장에서는 AWS가 압도적인 선두를 달리고 있으며 마이크로소프트가 그 뒤를 따르고 있고, 구글은 3위를 기록하고 있음


Ø 시장에서의 열세를 만회하기 위해서는 성공 사례가 유효하다고 생각했는지, 구글은 개발자들이 다수를 차지하는 구글 클라우드 넥스트의 기본적 속성에도 불구하고, 올해 컨퍼런스에서는 대기업의 활용 사례 소개에 많은 시간을 할애하였음

※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1787호(2017. 3. 15 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

실시간주차정보 센서 vs 기계학습 방식.pdf



[요 약]


스마트 시티 구축에서 중요 요소 중 하나는 주차 공간 정보를 실시간으로 정확하게 제공하는 것인데주차장 정보 시스템을 구축하기 위한 방법으로 현재 미국에서는 두 가지 기술방식이 경쟁하고 있음공공기관은 센서(IoT) 기술을 이용한 정보 집약 방식을 택하고 있으며민간기업 구글은 기계학습 기술을 이용한 알고리즘 방식의 정보 집약 방식을 택하고 있음스마트한 도시 정보 제공을 위한 센서와 알고리즘의 경쟁에서 누가 이길 것인지를 놓고 미국 내 관심이 높아지고 있음


[본 문]


ž 주차장 관리는 전통적으로 사물인터넷(IoT)의 전문 분야 중 하나로, 설치된 센서를 통해 차량의 주차 유무를 파악해 전반적인 혼잡 상황을 파악함


Ø 주차 관리 및 혼잡 정보를 발신하는 것은 행정부문의 책임이기도 한데, 따라서 최근 스마트 시티 구축에 나서려는 국가와 도시들은 대체로 센서 기술을 이용해 주차와 차량 관련 정보를 집약, 분석, 제공하려는 시도를 하고 있음


Ø 미국 캘리포니아주 샌프란시스코시의 경우도 주차장에 IoT를 적용하여 혼잡도를 파악하는 SF Park(SF 파크)라는 실증 실험을 진행하고 있음


Ø 샌프란시스코 시가지에 있는 노상 주차장에는 주차 미터기(Parking Meter)가 설치되어 있는데, 이용자들은 주차 후 동전이나 카드, 앱으로 요금을 지불하게 되어 있음


Ø 주차와 동시에 주자 미터기의 센서가 작동하여 차의 유무를 감지하며, 주자 미터기에 연결된 IoT 전용 네트워크인 시그폭스(Sigfox)를 통해 주차 공간의 혼잡 정보가 집약됨


ž 샌프란시스코시는 계획대로 IoT 주차 관리 시스템이 완성되면 주차 혼잡 정보를 실시간으로 알 수 있게 될 것으로 기대하고 있으나, 이 작업은 쉽지 않은 일이라는 지적도 있음


Ø 전문가들은 주차 미터기가 주차 여부를 제대로 감지 할 수 있는가 하는 문제가 있기 때문에, 계획대로 주차 혼잡도 정보가 제대로 파악될 수 있을지를 관심 있게 지켜보고 있음



[동영상] 샌프란시스코시의 SF Park 프로젝트에 사용되는 주차 미터기(Parking Meter)


Ø 가령 주자 미터기가 있는 주차 장소에 누군가 불법 주차하거나 또한 특별 허가증을 가진 차량이 주차하는 경우에는 공간 여유가 있다고 판단될 가능성이 있음


Ø 반면 주차 시간이 아직 남아 있는 상태에서 자동차를 빼는 사람도 있을 텐데, 이 경우에도 주차 중이라고 판단될 가능성이 있음


Ø 이런 이유 때문에 실시간으로 정확한 주차 공간 정보를 파악하는 것은 어려운 작업이며, 현재 실험 중인 주차 미터기 시스템에 보완이 필요하다는 의견이 적지 않음


ž 이에 비해 구글은 접근 방식을 바꿔 센서를 사용하지 않고 알고리즘의 파워를 통해 혼잡 상황을 파악하고 시설을 관리한다는 아이디어를 구현하고 있음


Ø 구글은 소프트웨어를 통해 차량의 흐름을 기계학습(Machine Learning)으로 분석해 혼잡 상황을 정확히 추정하려고 하는데, 이러한 아이디어는 지난 달부터 시작된 구글 지도의 주차장 혼잡 상태 표시 서비스에 반영되어 있음


<자료>Google


[그림 1] 구글 지도의 주차장 혼잡 정보 제공


Ø 현재 구글 지도에서 목적지까지의 경로를 검색하면 [그림 2]에서 보는 것처럼 화면 하단에 주차를 의미하는 아이콘과 함께 목적지 주변의 주차 난이도가 표시됨


Ø 주차장 혼잡도는 수월(easy), 보통(Medium), 한정(limited)의 셋 중 하나로 표시되며, 수월이나 보통의 경우 가 파란색으로 표시되는데, 이는 주차 공간을 찾기가 어렵지 않아 제 시간에 출발해도 괜찮음을 의미함


Ø 반면, 주차장 상태가 한정(Limited)일 경우 는 붉은색으로 표시되는데, 이는 말 그대로 주차 공간이 한정되어 있어 주차 장소를 찾는데 시간이 걸릴 수 있다는 뜻이므로, 이용자는 주차에 걸리는 시간을 감안해 출발 시간을 조정하는 등의 판단을 할 수 있음


Ø 구글 지도는 주차가 어려울 경우 전철로 이동하는 것이 좋겠다는 등의 대안을 제시하고 있는데, 구글에 따르면 이 주차 정보 서비스를 시작한 이후 실제로 전철로 이동하는 루트의 검색 건수가 급증했다고 함


ž 구글에 따르면 이 서비스를 위해 주차 공간을 파악하는데 크라우드 소싱(crowd sourcing)기계학습이라는 두 기법을 사용 중이라고 함


Ø 구글은 이 새로운 서비스의 구조를 기계학습을 이용한 주차의 어려움 예측(Using Machine Learning to predict parking difficulty)이라고 이름 붙여 발표하였음


Ø 크라우드 소싱과 기계학습이라는 두 가지 적용 기술 중 크라우드 소싱은 사용자의 다양한 데이터를 집약하여 이용하는데 사용되고 있으며, 기계학습은 여러 가지 요인을 고려하여 주차 패턴을 분석하는데 사용된다고 함


ž 크라우드 소싱으로 집약되는 데이터에는 사용자의 위치 정보, 체류 정보, 주차장 찾기까지 걸린 시간 정보 등이 포함됨


Ø 주차 혼잡도 정보 제공 서비스를 위해 구글은 구글 지도에서 모은 사용자 위치 정보를 이용하고 있는데, 구글은 일찍부터 사용자 동의 하에 입수한 사용자의 위치 데이터를 이용해 다양한 서비스를 전개하고 있음



<자료> Google Help


[그림 2] 구글 지도의 혼잡시간과 방문지속시간


Ø 사용자 위치 정보를 이용한 대표적인 서비스는 구글 지도에 나타나는 실시간 트래픽(Live Traffic) 현황으로 차량의 흐름 상태를 실시간으로 표시해 줌


Ø 또한 구글 지도는 상점과 레스토랑의 혼잡 시간(Popular Time) 방문 지속시간(Visit Duration) 정보도 제공하고 있는데, 이들은 모두 유용한 정보 도구로서 이미 생활의 일부로 이용되고 있음


Ø 이들 데이터 외에도 구글 지도에서는 사용자에게 주차장을 찾기까지 시간이 얼마나 걸렸습니까?라는 질문을 보내고 답변을 집약한 후 주차장 찾기의 난이도를 산출한다고 함


Ø 구글은 이를 위한 기법 중 신뢰도가 높은 지상 실측자료(Ground Truth) 방법을 사용해 데이터를 수집한다고 하는데, 지상 실측자료는 원격탐사자료를 분석하고 해석하는데 뒷받침이 될 수 있는 자료로 지상에서 직접 측정하고 확인한 보조자료 및 기준 자료를 의미함


ž 그러나 이 크라우드 소싱 방법만으로는 주차장의 정체를 정확히 추정할 수 없는데, 차를 주차하는 패턴의 수가 많고 이러한 요인을 고려할 필요가 있기 때문


Ø 예를 들어, 자동차를 사유지에 주차하는 이용자가 많다면 주차 소요 시간은 짧을 것인데 알고리즘은 이를 주차 여유 공간이 있는 것으로 오인할 가능성이 있음


Ø 또한 이용자가 택시나 버스로 이동한 경우도 주차 소요 시간이 걸리지 않으므로 알고리즘은 주차 공간이 있는 것으로 오인할 가능성이 있으며, 이처럼 주차 공간을 판정하는 데 크라우드 소싱 방식으로는 한계가 있는 것임


<자료> Google


[그림 3] 차량 이동 패턴으로 주차공간 예측


Ø 이 때문에 자동차가 어떤 패턴으로 이동하면 주차장이 없음을 의미하는지, 그 특징량을 찾아내는 것이 관건이 되는데, 가령 [그림 3]처럼 점심 시간에 자동차가 거리를 뱅뱅 도는 움직임을 보이면 주차장이 없기 때문으로 판단하는 모델을 설정할 수 있음


Ø 반면, 이용자가 목적지에 도착하여 그대로 시설에 들어갔을 경우에는 주차장이 있었다고 판단할 수 있는데, 구글은 이러한 특징량을 파악하여 알고리즘에 반영하였음


Ø 이 밖에도 목적지의 특수한 조건이나 주차장의 위치에 따라 달라지는 요인도 고려할 필요가 있었다고 하며, 주차 시간과 주차 날짜에 따라 달라지는 조건 등을 도입하였음


Ø 또한 과거의 통계 정보도 이용하였는데, 이런 방식으로 구글은 최종적으로 20개의 모델을 분석하였고 이를 이용하여 알고리즘을 교육했다고 함


ž 앞서 언급한 기계학습 기술이 바로 이 20개 모델의 분석에 사용되었는데, 기계학습의 다양한 방법 중에서도 로지스틱 회귀분석(Logistic Regression)이 사용되었음


Ø 로지스틱 회귀분석은 변수간 인과관계를 분석하기 위한 통계학의 대표적인 기법으로서, 영향을 주는 변수가 연속형(3개 이상의 값)이고 영향을 받는 변수가 범주형(0 1의 두 값)일 때 변수 사이의 인과관계를 추정하는 것임


Ø 로지스틱 회귀분석으로 알고리즘을 교육하여 변수를 입력하면 어떤 사항에 대해 그 결과를 예상할 수 있는데, 이 경우에는 운전자의 운행 데이터를 입력하면 주차장을 찾기가 쉬울지 어려울 지를 예측할 수 있음



<자료> Google

[그림 5] 기계학습을 통한 주차장 혼잡 예측


Ø 알고리즘은 주차가 쉽다어렵다의 두 값을 출력하게 되며, 따라서 이는 바이너리 로지스틱 모델(Binary Logistic Model)이라 부를 수 있음


Ø 이 기법으로 샌프란시스코 도심 주차장의 혼잡을 예측하면 [그림 4]와 같이 시가지를 구획으로 나누어 각 주차장의 정체를 표시하게 되는데, 짙을 수록 혼잡이 심함을 나타냄


Ø 상단은 월요일, 하단은 토요일을 나타내며, 왼쪽은 오전 8시 오른쪽은 오후 9시의 표준적인 혼잡 정보를 표시하는데, 월요일 아침은 상업 지역의 주차장이, 토요일 밤은 관광 명소 지역의 주차장이 붐비는 것을 알 수 있음


ž 전문가들은 구글이 딥러닝(Deep Learning) 기술 부문에서 세계를 선도하고 있음에도 불구하고, 과감히 기계학습 기술을 주차 예측에 적용한 것에 관심을 표시하고 있음


Ø 인간의 뇌를 본 뜬 인공지능인 신경망(Neural Network)을 활용하는 대신 통계적 기법인 로지스틱 회귀분석을 사용한 것에 대해, 구글은 로지스틱 회귀분석이 이미 확립된 기술이어서 그 작동방식을 이해하기 쉽기 때문이라 설명함


Ø 이런 설명은 신경망은 그 내용이 블랙 박스이기 때문에 작동방식을 이해하기 어렵다는 인공지능 연구의 최신 이슈를 잘 보여주는 것이기도 함(주간기술동향 1778호 최신ICT이슈 답은 맞는데 풀이과정을 알 수 없는 인공지능을 믿어야 할까? 참조)



[그림 5블랙박스처럼 알 수 없는 신경망


Ø 비단 구글만이 아니라 최근 다른 인공지능 연구 기업들에서도 기계학습을 재검토하려는 움직임이 확산되고 있는데, 신경망 전성 시대가 도래하고 있긴 하지만 오랜 세월에 걸쳐 축적된 기술을 개량하고 잘 이용하려는 시도도 병행하려는 것임을 알 수 있음


Ø 물론 기계학습에 재주목하는 것과 동시에 신경망이라는 블랙박스를 열어 구조를 해명하려는 연구도 더욱 본격적으로 전개될 것임


Ø 구글의 주차장 혼잡 예측 모델을 통해 유추해 본다면 AI 연구의 관점에서 올해의 큰 테마는 기계학습의 개량과 신경망의 해명이라 할 수 있음


ž 아무튼 주차장 혼잡 정보 예상 서비스를 놓고 미국에서는 센서와 알고리즘의 싸움이 시작되었으며, 둘 중 누구의 손이 올라 갈지를 두고 많은 이들이 흥미롭게 지켜보고 있음


Ø 구글과 SF 파크의 노력은 현재 미국 전역에서 전개되고 있는 스마트 시티 개발의 모델 케이스로 주목받고 있으며, 따라서 둘 중 어느 쪽이 경쟁에서 이길 것인지에 대해 지역 주민들뿐만 아니라 전국적인 관심이 높아지고 있는 상황


Ø 물론 수십 조 개의 센서를 활용해 데이터를 수집, 분석하려는 시도에 비해 알고리즘은 보다 비용효과적일 수 있다는 점에서 양자가 대립 구도로 규정되고 있기는 하나, 기술의 정확도 면에서 센서와 알고리즘은 물론 상호 보완적으로 접목될 가능성도 높을 것임




※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1782호(2017. 2. 8 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

AI 음성 클라우드 석권 조짐.pdf



[ 요 약 ]


아마존의 인공지능(AI) 스피커 에코(Echo)가 자연스러운 대화 기능으로 호평 받으며 폭발적인 판매 증가세를 보이고 있음. 아마존은 이러한 대화 기능을 AI 음성 클라우드 서비스 형태로 공개했고, 기업체들은 잇따라 아마존의 음성 AI 서비스인 알렉사(Alexa) 도입 계획을 발표하고 있음. 가전은 물론 로봇, 자동차 업체들의 러브 콜을 받고 있는 아마존은 서버 클라우드 사업의 뒤를 이을 새로운 시장으로 AI 기반 음성 클라우드 비즈니스 모델을 구축하고 이 시장을 석권하려 할 것으로 보임



[ 본 문 ] 


◈ 아마존 개발 팀은 인간의 본질적인 커뮤니케이션 수단이 이라는 점에 주목해, 대화를 이용한 주변 기기를 제어할 수 있는 인공지능을 개발하였음


아마존은 2014년 인공지능(AI) 스피커를 표방하며 선보인 에코(Echo)' 제품은 현재까지 누적 510만 대가 출시되며 히트상품 반열에 들어서고 있고, 지금은 에코 탭(Echo Tap, 휴대용 에코)에코 닷(Echo Dot, 소형 버전의 에코)이 제품 라인에 추가된 상태


<자료> Android Central


[그림 1] 아마존 에코 라인업


• 인공지능 스피커 제품의 이면에서는 AI 음성 기능인 알렉사(Alexa)가 구동되어 이용자와 대화가 가능하도록 주관하는데, 기기에 말을 걸면 음악을 재생하고 뉴스를 들려 주며, 스마트 홈의 허브로 기능할 수 있기 때문에 다른 가전도 말로 조작 할 수 있게 해 줌


아마존은 2012년에 알렉사의 개발을 시작하며 클라우드 기능을 모두 음성으로 조작하는 시스템을 목표로 했는데, 이 아이디어는 TV 프로그램 스타트렉(Star Trek) 중 우주선 내의 복잡한 기기들을 말로 조작하는 장면에서 힌트를 얻었다고 함


알렉사는 기기에 손대는 일 없이 음성 만으로도 정보에 접근하고 가전 제품을 조작 할 수 있는 환경을 제공하는데, 말은 인간의 본질적인 커뮤니케이션 수단이며 이러한 특징을 아마존 개발팀은 알렉사 개발에 적용한 것


◈ 아마존의 알렉사는 자사의 제품으로만 적용이 제한되어 있지 않으며, 플랫폼으로서 자리매김하여 그 위에 생태계가 형성되는 것을 지향하고 있음


<자료> Amazon


[그림 2] 아마존의 알렉사 플랫폼 전략


• 알렉사는 이미 외부에 공개되어 있고 많은 기업에 적용되어 음성 서비스를 제공하고 있으며, 써드파티 협력업체들은 이 기능을 이용해 음성으로 조작이 가능한 보이스 앱(voice app)의 개발에 나섬으로써 생태계에 동참하고 있음


아마존과 협력사들이 개발하고 있는 보이스 앱은 스킬(Skill)이라 부르는데 에코 출시 초기에는 10개 정도에 불과했던 스킬이 지금은 5,000개를 넘어섰다고 함


최근 인기 있는 스킬은 어메이징 워드 마스터 게임(Amazing Word Master Game)으로 에코와 끝말 잇기를 하는 게임 앱인데, 영어 공부에 도움을 받을 수 있는 것도 장점이지만 혼자서 할 일이 없을 때 에코를 놀이 상대로 삼을 수 있음을 잘 보여주는 사례임


비즈니스와 연계 된 스킬이 많아지고 있는 것도 특징인데, 가령 여행 사이트 익스피디아(Expedia)는 작년 말부터 알렉사를 이용한 음성 서비스를 제공하고 있으며, 비행기를 예약한 사람은 에코와 대화 방식으로 비행 세부내역을 확인할 수 있음


아마존 알렉사 플랫폼에서 주목해야 할 것은 에코에서만 작동하는 스킬 생태계 구축에 목표를 한정하는 것이 아니라, 음성 조작 기기를 개발하고 있는 업체라면 누구나 알렉사를 이용해 자신들의 제품에 음성 기능을 통합할 수 있게 하려는 개방형 정책을 편다는 점


◈ 알렉사 플랫폼이 우선 적용될 것으로 예상되는 분야는 에코와 동일한 카테고리인 가전과 가전 서비스인데, 위성 TV 서비스 디쉬(Dish) LG전자가 알렉사 도입 계획을 발표하였음


디쉬는 셋톱박스인 Hopper DVR을 에코 또는 에코 닷과 연결하여 TV를 말로 조작할 수 있는 기능을 제공할 계획임



<자료> DISH


[그림 3] 디쉬 위성TV 서비스와 에코 연계


• 가령 에코에 대해 알렉사 ESPN으로 가(Alexa, Go to ESPN)라고 지시하면 ESPN으로 채널을 변경하며, 프로그램을 검색하며 알렉사 레드삭스 중계 채널이 어디지?(Alexa, what channel is the Red Sox game on?)라고 물으면 에코가 해당 채널을 찾아 대답해 줌


이 서비스는 2017년 상반기부터 제공될 예정인데, 소비자 반응에 따라 앞으로 TV는 리모컨뿐만 아니라 음성 조작이 필수 인터페이스가 될 가능성이 있음


구글 역시 AI 대화 기능인 어시스턴트(Assistant)를 통해 TV를 음성으로 조작 할 수 있는 기능을 제공하고 있는데, 향후 TV 조작 음성 인터페이스의 패권을 놓고 에서 아마존의 알렉사와 구글의 어시스턴트가 치열한 경쟁을 벌일 것으로 예상



• 한편 LG전자는 스마트 냉장고인 'Smart InstaView Door-in-Door' 모델이 알렉사 보이스 서비스를 이용할 것이라 발표하였음


이 냉장고는 29인치 터치 스크린을 탑재하고 있으며, 이미 마이크로소프트의 음성 AI코타나(Cortana)를 인터페이스로 이용해 왔으나, 이를 알렉사로 변경한다고 밝힌 것


알렉사를 통해 이용자는 음성으로 레시피를 검색하고 쇼핑 목록을 만들 수 있으며 아마존닷컴에서 쇼핑까지 할 수 있기 때문에 냉장고를 스마트 홈의 허브로서 사용할 수 있음


LG전자의 스마트 냉장고는 가전의 진화 방향을 보여주고 있다는 평가이며, 향후 음성으로 조작 할 수 없는 가전 제품은 팔리지 않게 될 수 있음을 시사하고 있음


<자료> Engadget


[동영상알렉사 탑재 LG전자의 인공지능 음성 제어 냉장고


◈ 가전 다음으로 알렉사의 적용이 용이한 분야는 스마트폰인데, 화웨이(Huawei)는 자사의 최신 스마트폰 메이트(Mate) 9에 알렉사를 미리 설치하여 출시할 것이라 밝혔음


CES 2017에서 화웨이는 메이트 9에 보이스 앱이 탑재될 예정이며, 그 기저에는 알렉사 보이스 서비스가 사용될 것이라 발표하였음


이용자는 음성으로 메모를 작성하고, 날씨나 교통 체증 정보를 알려달라고 할 수 있으며 또한 메이트 9을 스마트홈의 허브로 삼아 가전 제품을 조작 할 수도 있다고 하는데, 이러한 보이스 앱은 올해 상반기부터 제공될 예정이라고 함


구글은 이미 안드로이드용 AI 대화 기능인 어시스턴트(Assistant)를 제공하고 있으며 이를 이용한 메신저도 선보이고 있기에, 올해 안드로이드 스마트폰 시장에서는 어시스턴트와 알렉사와 정면 대결이 볼만할 것으로 예상되고 있음


◈ 스마트폰 앱 개발업체들도 알렉사 스킬을 새로운 앱스토어 생태계로 보고 점차 관심을 기울이고 있는데, 스타벅스는 최근 알렉사를 활용한 앱 기능을 선보여 관심을 모으고 있음


<자료> YouTube


[동영상] 음성 AI를 도입한 스타벅스


• 평소 우리는IT 기업이다라고 외쳐온 스타벅스는 최근 AI를 활용한 음성 작동 챗봇을 개발해 사용하는 한편, 아마존 알렉사를 이용해 집 안에서 인근 스타벅스에 미리 주문을 넣을 수 있는 기능을 선보였음


이용자가 에코 스피커에 알렉사, 내 스타벅스를 주문해줘라고 말하면 인근 스타벅스 매장에 이용자가 평소 먹는 커피의 주문이 전달되는데, 이 기능을 사용하려면 스타벅스 모바일 주문·결제 계정을 만들어야 함


스타벅스의 새로운 기능들은 매장에서 모바일 앱으로 주문하려면 긴 줄을 서야 한다는 불만이 터져 나온 이후 개발됐다고 하는데, 모바일 앱을 통한 스타벅스 판매는 전체의 27%에 해당하기 때문에 스타벅스는 해결책을 제시해야 했고, 그 해답을 음성에서 찾은 것


◈ 커넥티드 카와 연계는 알렉사 플랫폼의 적용 분야가 광범위하게 확산될 가능성을 보여줄 수 있는데, 포드는 자동차 메이커로는 처음으로 알렉사 보이스 서비스의 도입을 결정하였음


이용자는 집 안에 있는 에코를 통해 포드 자동차를 조작 할 수 있는데, 알렉사, 마이포드 모바일에 시동을 걸라고 요청해줘(Alexa, ask MyFord Mobile to start my car)라고 에코에 지시하면 엔진 시동이 걸리게 됨


운전 중에는 센터페이사의 디스플레이 패널에서 알렉사를 이용할 수 있는데, 목적지 검색과 차고 문 개폐 등을 말로 지시 할 수 있음


이는 포드의 싱크(SYNC) 3 기술과 연계한 것으로 운전자의 스마트폰 앱에서 자동차로 접근하는 것과 같은 구성이며, 원격 시동 기능은 CES 2017에서 이미 선보였고 차량 내 알렉사 이용은 올 여름부터 가능할 것이라고 함


<자료> Ford Media

[동영상] 포드 싱크3와 연계되는 아마존 에코의 알렉사


• 자동차가 자율운전 차량으로 진화해 가고 있기 때문에, 운전자와 자동차의 인터페이스가 음성이 되는 것은 어찌 보면 당연한 흐름이기에 알렉사와 같은 음성 AI와 커넥티드 카의 결합 흐름은 앞으로 더욱 확대될 전망


◈ 자동차와 더불어 로봇 역시 음성 AI 플랫폼의 적용 분야로 높은 관심을 받고 있는데, 중국 선전에 본사를 둔 유비테크(UBTech)는 알렉사를 내장한 로봇 링크스(Lynx)를 발표하였음


링크스는 알렉사 보이스 서비스를 내장하고 있어 말로 조작이 가능한 로봇으로 음악 재생이나 메일 읽기 등을 음성으로 지시할 수 있음


이 로봇은 알렉사가 제공하는 기능 외에도 탑재하고 있는 카메라로 이용자를 식별해 개인별로 맞춤형 대응이 가능한 것이 특징이라고 하며, 또한 카메라를 보안 모니터로 사용하면 링크스를 이용해 외출 시에도 주택을 감시할 수 있다고 함


<자료> UBTech


[동영상] 알렉사 탑재 휴머노이드 로봇 링크스


• 그 동안 로봇 개발에서는 대화 기능이 걸림돌이 되어 왔지만, 알렉사 보이스 서비스를 이용할 수 있게 되면서 개발 기간을 단축할 수 있게 되었고, 손쉽게 로봇을 개발할 수 있게 됨에 따라 로봇시장의 진입 장벽이 크게 낮아질 것이란 전망도 나오고 있음


링크스의 가격은 800 달러에서 1,000 달러로 2017년 후반에 정식 출시될 예정인데, 링크스의 성공 여하에 따라 알렉사가 로봇의 표준 인터페이스로 자리 잡을 가능성도 있음


◈ 이처럼 다양한 분야의 제조업체들이 잇따라 알렉사 플랫폼에 호응하는 이유에 대해 전문가들은 AI를 활용한 고급 대화 기능을 경쟁사 보다 월등히 구현해주기 때문이라 평가하고 있음


알렉사를 탑재한 기기들은 알렉사라는 호명을 감지하면 이후 이어지는 음성 스트림을 클라우드로 전송하며, 일련의 대화 처리는 클라우드에서 이루어짐


구체적으로는 음성 인식, 자연어 처리, 문자-음성 합성(Text-to-Speech Synthesis)의 처리가 실행되며, 이 과정에서 AI가 사용되는데 아마존은 하나의 AI가 아니라 각 모듈 별로 고급 AI가 구현되어 음성 서비스를 지원한다고 함


알렉사가 고급 대화 기능을 제공 할 수 있는 이유로는 AI 알고리즘을 최적화하는 교육 데이터의 강점이 꼽히는데, 여기서 교육 데이터는 말(사운드)과 그것을 표시하는 문자(텍스트)의 조합을 의미함


AI 알고리즘 개발에 사용하는 음성 교육 데이터로는 주로 콜 센터 오퍼레이터들의 대화가 사용되나, 가정에서 주로 사용하는 대화(가령 차고 문 닫아 )를 기반으로 한 교육 데이터는 거의 없다고 함


아마존은 2014 11월에 에코 출시 이후 이용자의 피드백 등을 사용하여 교육 데이터를 정비해 왔으며, 이런 데이터 축적이 고급 대화 기능 구현에 있어 타의 추종을 불허하는 이유가 되고 있다는 분석


◈ 전문가들은 아마존이 이러한 알렉사의 경쟁력을 바탕으로 아마존 웹서비스(AWS)의 성공을 뒤이을 새로운 비즈니스로 AI 음성 클라우드 서비스 시장을 개척해 나갈 것이라 예상


AWS가 여러 난관을 뚫고 성장하며 지금은 대기업들도 사용하는 서비스로 성장한 것처럼 아마존은 AI 음성 클라우드 서비스의 가능성에 확신을 가지고 있는 것으로 보임


우선은 AI 음성 클라우드 서비스가 이슈화되는 것이 중요하기 때문에, 아마존은 구글 어시스턴트 같은 경쟁 서비스의 존재를 반기는 입장이며 적대적 경쟁관계로 보지 않고 있음


이는 홈킷(HomeKit)을 통해 폐쇄적인 생태계를 구축하려 하는 애플의 정책과 대별되는 아마존의 플랫폼 정책이라 할 수 있음


아마존은 이미 스마트홈, 가전, 자동차, 로봇 등 여러 분야에서 AI 음성 서비스 시장을 선도하고 있기 때문에, 일단 시장이 형성되고 나면 석권할 수 있다는 기대와 자신감이 있는 것으로 보이며, 전문가들도 실제 아마존의 기술이 표준이 될 가능성도 내다보고 있음


◈ 아마존이 AI 음성 클라우드 시장의 초기 주도권을 선점함에 따라, 가전, 자동차, 로봇 제조업체들은 알렉사를 이용할 것인지, 자체 개발할 것인지 선택의 기로에 서게 될 전망


다양한 기기 제조업체들은 알렉사 보이스 서비스를 통해, AI 음성 기능을 독자적으로 개발하는 수고를 줄이면서도 자신들의 제품에 대화 기능을 통합할 수 있게 되었음.


자체 기술 개발에 대한 미련과 유혹은 항상 존재하지만, 알렉사를 기본 기능으로 채택하고자 결정하는 기업들이 늘어난다면, AWS가 그랬던 것처럼 알렉사 보이스 서비스가 표준 AI 음성 클라우드 서비스로 자리매김할 가능성이 있음


<자료> Lenovo


[그림4] 알렉사 탑재 레노보의 AI 스피커


• 기업들은 알렉사는 기본기능으로 두고 다른 요인에서 차별성을 찾는 전략을 구사할 수 있는데, 레노보의 AI 스피커 스마트 어시스턴트(Smart Assistant)는 이런 흐름을 잘 보여줌


스마트 어시스턴트는 에코와 모양뿐 아니라 기능적으로도 매우 유사한 제품이나, 차별점은 프리미엄 스피커인 하만 카돈(Harman Kardon)을 탑재하고 있다는 것


올해 5월부터 판매될 스마트 어시스턴트는 에코와 동일 기능, 더 나은 스피커임에도 가격은 에코와 동일한 180 달러로 책정하여 경쟁력을 확보할 방침인 것으로 알려짐


레노보와 같은 전략을 취할 것인지, 독자 AI 음성 기술을 개발을 것인지 기업들은 선택해야 하는데, 이는 마치 클라우드 서비스를 이용할 것인지 아니면 기업 내부에 자체 컴퓨팅 환경을 구축할 것인지 선택하는 문제와 유사함


확실한 것은 알렉사로 인해 점점 더 많은 기업들이 자신들의 제품과 서비스에 AI 음성 기능의 접목을 고려하지 않을 수 없게 되었다는 것이며, 고민하는 기업이 늘어날수록 AI 음성 클라우드 서비스 시장도 급속도로 발전하게 될 전망