※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1860호(2018. 8. 22. 발행)에 기고한 원고입니다.


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

페이스북, 실생활에서 상식을 익히고 사람의 말을 이해하는 AI 개발.pdf



[ 요 약 ]


인공지능(AI) 기술이 비약적으로 발전하며 사람과 자연스럽게 대화할 수 있는 구글 듀플렉스 같은 서비스도 등장했지만, 페이스북은 그런 것은 어디까지나 매우 제한된 상황에서 AI가 뜻도 모른 채 사람의 말을 모방하는 것이라 보고 있음. 이런 한계 극복을 위해 페이스북은 AI가 실제 사회에서 사람과 상호작용하며 인간과 마찬가지 방식으로 지능을 획득하도록 하는 연구를 진행 중인데, ‘토크 더 워크임바디드 비전등이 주목받는 프로젝트



[ 본 문 ]


페이스북 인공지능 연구소(AI Research)AI가 거리로 나와 실제 사회와 상호작용을 통해 지성(인텔리전스)을 습득하는 기술을 연구하고 있음


AI의 등장으로 자연어 분석 기술이 비약적으로 발전했는데, 특히 기계 번역(Machine Translation)와 자연어 이해(Natural Language Understanding) 부문에서 AI가 급속한 발전을 거듭하면서 인간 생활의 편의성 향상을 지원할 수 있게 되었음


그러나 AI가 번역과 대화를 할 수 있게 되었다고는 하지만 알고리즘이 말의 의미를 이해하고 있는 것은 아니며, 아직은 어디까지나 말의 뜻을 모른 채 AI가 인간을 모방하는 것이며 대화하는 것처럼 보이는 것이 지나지 않음


가령 사람과 너무 흡사해 경악스럽다는 반응을 이끌어 낸 구글 듀플렉스(Duplex)’의 경우도, 직접 테스트에 나선 IT 기자들이 고의로 엉뚱한 대답을 내놓자 무슨 말인지 몰라 전혀 대응하지 못하는 모습을 보였음


따라서 페이스북 AI 연구소는 AI의 자연어 기능이 향상되고 멋진 가상 비서의 등장이 잇따르고 있지만 정말 유용한 가상 도우미를 개발하려면 AI가 지능을 갖도록 만들어 사람처럼 말의 의미를 이해할 필요가 있다는 생각을 갖고 있음


연구소측에 따르면 AI가 지능적이 될 수 없는 이유는 교육 방법에 있는데, 알고리즘이 대량의 텍스트 데이터로 교육을 받고, 통계 기법에 기초해 번역과 대화를 하기 때문임


따라서 페이스북 AI 연구소는 지능적인 AI를 개발하려면 알고리즘이 실제 사회 속에서 주변 환경이나 다른 사람과 교제를 하며 말을 배움으로써 단어의 의미를 이해하고 말을 할 수 있게 된다고 주장함


페이스북 AI 연구소는 최근 이와 관련한 논문을 발표하고, 길거리에서 관광객을 안내해 주는 토크 더 워크(Talk the Walk)’라는 교육 모델을 소개하였음


연구소 측은 말을 환경과 연계하는 방법으로 AI를 교육시키는 연구를 진행하고 있으며, 이 주제에 관한 논문 'Talk the Walk: Navigating New York City through Grounded Dialogue(토크 더 워크: 현실적 대화를 통해 뉴욕 시에서 길을 찾기)'를 발표하였음

Talk the Walk-Navigating New York City through Grounded Dialogue.pdf


논문은 AI가 거리에 나와 실제 사회와 상호작용을 통해 지능을 습득하는 기법을 보여주고 있으며, 두 개의 AI(에이전트)를 생성하는데, 첫 번째 AI가이드 에이전트이고 두 번째 AI관광객 에이전트이며 두 에이전트는 서로 떨어져 있음


이 작업은 ‘Talk the Walk(토크 더 워크)’라고 불리며, 대화를 통해 가이드 에이전트가 길을 잃은 관광객 에이전트를 목적지까지 말로 안내하는 과정을 보여 줌


원래 영어 표현에서 ‘Walk the Talk(워크 더 토크)’말한 것을 실천에 옮기다라는 뜻인데, ‘토크 더 워크실천할 것을 말해주기정도로 번역할 수 있음


<자료> Dhruv Batra et al.

[그림 1] Talk the Walk 교육 모델대화를 통한 인간의 언어 이해 모델


 

토크 더 워크교육 모델은 길을 잃은 관광객이 안내소로 전화를 해 목적지까지 가는 경로에 대한 설명을 듣는 상황을 재현하고 있음


실험에서 두 에이전트(가이드와 관광객을 대표)는 뉴욕 시내에서 대화를 하게 되는데, 가이드는 지도를 보며 목적지를 파악할 수 있지만 관광객의 위치는 모르며, 반면 관광객은 지도를 볼 수는 없지만 자신이 처한 곳의 사방 풍경을 보고 말할 수 있음


가이드는 길을 잃은 관광객과 대화를 주고받게 되며, 관광객이 가고자 하는 목적지에 도달할 수 있도록 방향을 유도함


연구팀은 이 작업을 수행하기 위해 뉴욕의 다섯 지역을 선택해 그 지도를 생성했는데, 지도에는 360도 카메라로 촬영한 영상(스트리트 뷰)이 포함되어 있고, 이는 관광객 에이전트가 교차로의 모서리에 주위의 풍경을 둘러보는 상황에 활용됨


또한 사진에 찍힌 유명 바나 은행, 상점 등의 랜드마크에는 그것이 무엇인지 알려주는 태그를 붙여, 관광객 에이전트가 간판을 보고 답을 할 수 있는 상황을 설정하였음


한편, 가이드 에이전트용으로는 2D 지도를 준비하였고, 여기에는 도로명과 주요 랜드마크들을 표시하였음


태스크는 간단한데, 관광객은 스트리트 뷰를 보고 눈앞에 있는 랜드마크를 가이드에게 알려주며, 가이드는 이 정보를 단서로 관광객의 현재 위치를 파악하고 목적지까지 갈 수 있도록 길 안내를 함


가이드는 관광객이 목적지에 도착했다고 확신한 시점에 길 안내를 멈추며, 시스템이 관광객이 정말 목적지에 도착했는지 검증한 후 일련의 작업이 종료됨


<자료> Facebook AI Research

[그림 2] 가이드 에이전트와 관광객 에이전트의 대화(인간의 언어로 대화)


◾ 논문에 따르면 가이드 에이전트의 관광객 길 안내 정확도는 88.33%로, 실제 사람이 안내했을 때의 정확도 76.74%를 웃도는 것으로 나타남


가이드 에이전트가 관광객을 안내하기 위해서는 먼저 관광객의 주변 풍경 설명을 듣고 위치를 파악해야 하는데, 이를 위해 연구팀은 풍경의 묘사를 말로 전달받고 이를 위치정보로 변환하는 기능을 가진 위치결정 모델을 개발하였음


모델의 명칭은 ‘Masked Attention for Spatial Convolutions(MASC)’이며, 연구팀은 뉴욕 시내에서 MASC를 테스트하고 그 성능을 평가하였음


평가 결과 두 에이전트의 MASC 판정 정확도는 88.33%를 기록했으며, 실제 사람끼리 동일한 작업을 실행했을 때의 판정 정확도는 76.74%였음


, 이번 연구에서 높은 정확도를 기록한 AI 간의 대화는 인간의 말을 사용한 것은 아니고 특별한 언어 모델(Emergent Communication)을 사용했는데, 이 방식에서는 AI가 생성하는 원시 데이터를 이용하여 대화하게 됨


한편, AI가 인간의 말을 사용해 대화할 경우 MASC 판정 정확도는 50.00%로 감소하는데, 연구팀은 이런 평가 결과로 볼 때 인간의 언어는 정보를 정확하게 전달하는데 적합한 구조가 아님을 알 수 있다고 결론


<자료> Facebook AI Research(클릭하면 동영상을 보실 수 있습니다)

[그림 3] Talk the Walk 학습 모델의 정확성(에이전트 간 원시 데이터 이용 대화의 경우)



◾ 이번 연구는 AI가 불완전한 커뮤니케이션 도구인 사람의 언어를 정확하게 이해하기 위해서는 사람들이 그러한 것처럼 실제 환경 속에서 언어를 배울 필요가 있음을 보여주고 있음


 

토크 더 워크가 AI에 제공한 언어를 배울 수 있는 프레임워크는 가상의 전형(Virtual Embodiment)’이라 불리는데, 이는 여러 에이전트가 조성된 환경 속에서 체험을 통해 말의 의미를 학습하는 기법을 말함


토크 더 워크는 이런 컨셉에 기반을 둔 것으로 AI는 사회와 상호작용을 통해 지각(Perception), 행동(Action), 쌍방 커뮤니케이션(Interactive Communication) 기능을 학습함


이번 연구에서는 AI가 인간의 말을 사용하여 커뮤니케이션 할 때 의사소통의 정확성이 크게 저하됨을 보여주었는데, 이는 거꾸로 불완전한 커뮤니케이션 도구인 인간의 언어를 정확하게 파악하는 것이 AI에 부과된 명제라 할 수 있음


미션 수행을 위해서는 AI 역시 사람들이 해온 것처럼 환경과 접목되어 있는 언어를 배우려는 노력이 필요한 것이며, 이를 반영해 페이스북 AI 연구소는 워크 더 토크를 오픈소스로 공개해 AI가 언어를 배울 수 있는 환경을 확산시키려 하고 있음


한편 페이스북 AI 연구소는 토크 더 워크 외에도 AI가 상호작용을 통해 지능을 얻게 하려는 다양한 연구를 함께 진행하고 있는데, ‘임바디드 비전(Embodied Vision)’도 그 중 하나

Embodied Question Answering.pdf

지난 6월 샌프란시스코에서는 로봇의 두뇌인 딥러닝에 초점을 맞춘 로보틱스 분야 컨퍼런스 ‘RE·WORK Deep Learning in Robotics Summit’가 열렸는데, 오픈AI, 구글 브레인 등 주요 플레이어들이 참가해 기초 기술부터 응용 기술까지 폭넓게 논의하였음


페이스북 AI 연구소도 이 서밋에 참가하여 임바디드 비전이라는 최신 AI 기술을 소개하였는데, 번역하면 개념을 구체화한 컴퓨터 시각장치정도의 의미로 흔히 사용하는 컴퓨터 비전(Computer Vision)’ 기술과 대비할 수 있음


컴퓨터 비전이 로봇 혹은 에이전트의 시각 능력을 의미하는 것에 비해, 임바디드 비전은 로봇의 인지 능력을 가리킨다고 볼 수 것인데, 로봇이 주위의 개체를 단순히 파악할 뿐만 아니라 사람처럼 그것의 의미를 이해하는 데 보다 중점을 두고 있음


토크 더 워크와 마찬가지로 임바디드 비전 역시 AI가 인간처럼 지능적이 되기 위해서는 상호작용을 통한 학습(Learning from Interaction)’이 필요하다는 명제에 기반을 둠


지금까지 AI는 주어진 데이터 세트를 가지고 컴퓨터 비전을 통해 학습했는데, 가령 사진 데이터 세트인 이미지넷(ImageNet)’으로 개와 고양이의 구분법을 배우는 것임


이제 AI는 그 다음 단계의 학습, 즉 물건을 만지며 그 의미를 학습하는 단계로 넘어가야 하는데, 마치 아기가 손으로 만져가며 물건의 의미를 배우듯이 AI도 상호작용을 통해 기초 지식을 학습할 필요가 있다는 것이 페이스북의 생각임


이를 위해 페이스북 AI 연구소는 AI 교육을 위한 가상 환경으로 하우스3D(House3D)’를 개발했는데, 주택 내부를 3D로 표현한 것으로 로봇은 이 안을 이동하며 상식을 배워 나감


로봇이 하우스3D 안을 이동하면 눈앞의 장면이 바뀔 뿐만 아니라 각 장면에 등장하는 객체에는 이름이 붙어 있는데, 이는 로봇이 가상 환경을 돌아다니며 객체를 접하는 과정에서 객체의 의미를 학습하도록 한 것임


로봇이 여느 방과는 다른 유형의 공간인 부엌으로 이동하게 되면, 거기에 설치되어 있는 오븐과 식기 세척기 등의 객체를 배우고 부엌의 의미를 학습하게 됨



<자료> Georgia Gkioxari et al.

[그림 4] AI 교육을 위한 가상 환경 하우스3D를 통해 방의 이름과 방안의 객체를 학습


 

페이스북 AI 연구소는 세 가지 측면에서 로봇을 교육하는데, 로봇이 각각의 교육을 통해 학습한 것을 토대로 추론함으로써 질문에 대한 답을 찾을 수 있게 하는 것이 목표임


첫 번째 교육은 로봇이 가상 환경에서 물건을 보고 단어의 의미를 학습하게 하는 언어 기초교육(Language Grounding)’으로 로봇은 환경 속에서 물건과 이름을 연결함


두 번째 교육은 로봇이 집안에서 지정된 위치로 이동하게 하는 비주얼 내비게이션(Visual Navigation)’으로 로봇은 집안의 통로를 더듬어 찾아 가 문을 열고 지정된 위치까지 이동하게 됨


세 번째 교육은 로봇이 어떤 질문을 받으면 집안을 돌아다니며 그 답을 알아내도록 하는 임바디드QA(EmbodiedQA)’로 로봇은 답변을 찾기 위해 가상 환경 속을 이동함


▸ 기존의 로봇은 질문을 받으면 인터넷 검색을 통해 그 답을 찾지만임바디드QA에서는 실제 공간으로 이동하여 답을 구하는데가령 자동차가 무슨 색이지?’라는 질문을 받으면 로봇은 그 질문의 의미를 이해하고 집안에서 자동차를 찾기 시작함


▸ 이 때 로봇은 자동차는 차고에 주차되어 있다는 상식을 가동해 집안에서 차고를 향해 나아가게 되며차고의 정확한 위치를 모르더라도 다시 한 번 습득한 상식을 가동해 차고는 야외에 있을 것으로 추측하게 됨


▸ 결국 로봇은 현관에서 야외에 나와 정원을 가로질러 이동한 뒤 차고에 도착하고거기에서 자동차를 발견해 그 색이 무슨 색임을 파악한 후 답을 할 수 있게 되는 것임



<자료> 5Georgia Gkioxari et al. 클릭하면 자세히 보실 수 있습니다. 

[그림 5] 임바디드QA 작동 과정



이처럼 사람이 무언가를 배우는 것처럼 AI를 교육시키려 한다면, 로봇의 두뇌에는 광범위한, 그리고 다양한 AI 기술들이 구현되고 연계될 필요가 있음


구체적으로 살펴보면, 로봇의 두뇌에는 시각(Perception), 단어의 이해(Language Understanding), 길 찾기 능력(Navigation), 상식 추론(Commonsense Reasoning), 그리고 말과 행동의 연결(Grounding)이 필요하게 됨


페이스북 AI 연구팀은 로봇에 이런 기능을 구현해, 앞서 설명한 3D 가상 환경인 하우스3D에서 임바디드QA 모델을 구축하는 작업을 수행하는 데 성공한 것임


이 모델에서 로봇의 두뇌는 플래너(Planner)’컨트롤러(Controller)’로 구성되며, 심층강화학습(Deep Reinforcement Learning)을 통해 교육시켰다고 함


플래너는 지휘자로서 로봇의 진행 방향(전후좌우)을 결정하고, 컨트롤러는 실행자로서 지시대로 진행의 속도(스텝의 수)를 결정함


플래너는 장단기 메모리(Long Short-Term Memory, LSTM)’라는 유형의 네트워크로 구성되고 상술한 바와 같이 심층강화학습으로 교육시키는데, 사람처럼 시행착오를 통해 상식을 습득한다고 함



<자료> Georgia Gkioxari et al.

[그림 6] 플래너(Planner)의 LSTM 네트워크 구성


 

페이스북의 이러한 지능형 로봇 개발은 지금까지의 AI 개발 방식과 완전히 다른 것이나, 경쟁자들도 점차 이 방식을 수용하고 있어 향후 개발 경쟁이 가속화될 것으로 보임


AI 기술은 빠르게 진화하고 있으며 이미지 판정 능력은 이미 인간을 한참 웃돌며, 사람에게는 안 된다는 바둑 세계에서조차 이미 AI는 인간을 넘어선 바 있음


그럼에도 AI를 지능적 혹은 지적이라 말하기는 아직 요원한데, 이미지 판정 AI가 고양이를 식별하더라도 고양이의 의미를 이해하는 것은 아니며, 알파고는 바둑이라는 제한된 작업만 실행할 수 있을 뿐 자동차를 운전할 수는 없기 때문


지금의 로봇은 인간처럼 집안을 이동하는 것조차 할 수 없는데, 눈부신 발전에도 불구 인간처럼 지능적으로 사고 할 수 있는 AI의 개발은 뾰족한 돌파구 없이 답보 상태에 있다는 냉정한 평가도 나오고 있는 상황임


이런 상황을 타개하고자 페이스북 AI 연구소는 이전과는 완전히 다른 방식으로 AI를 개발하려고 하는 것이며, 실생활을 모방한 3D 가상 환경에서 AI를 교육시키고 이런 가운데 AI가 복잡한 작업을 스스로 배워 나가게 하는 것을 목표로 삼고 있음


, AI가 실제 사회 속에서 학습함으로써 인간과 같은 시각을 갖고 자연스러운 대화를 할 수 있으며, 다음 계획을 세우고 지적 사고를 할 수 있는 알고리즘을 개발하려는 것임


페이스북이 앞서가고 있기는 하지만 오픈AI나 딥마인드 등도 이 방식을 택하고 있어 앞으로는 정교한 가상 환경에서 심층강화학습으로 교육받은 알고리즘 개발 경쟁이 치열하게 전개될 것으로 예상됨


로봇이 사람처럼 지능적으로 된다면 인간의 삶도 근본적인 변화를 맞이할 수 있을 것인데, 페이스북이 개발 중인 가정용 로봇의 출시는 인류의 역사에 또 하나의 이정표가 될 전망


페이스북은 가상 비서 ‘M’을 개발해 왔지만 제품 출시 작업은 중단했는데, M이 호텔의 컨시어지처럼 어떤 질문에도 대답해주는 것을 목표로 했지만 사람과 대화는 주제의 폭이 너무 넓어 AI가 이에 전혀 대응하지 못했기 때문


이런 실패를 극복하고자 새로이 임바디드 비전 기술을 연구 중인 것인데, 최근 페이스북 역시 AI 스피커를 개발 중이라는 추측성 보도가 나온 바 있어 혹 임바디드 비전 기술에 바탕을 둔 제품인지 여부에 관심이 모이고 있음


또한 연구 내용에서 보듯, 기술 개발이 잘 진행된다면 가정용 로봇 개발 로드맵이 자연스레 떠올려지게 되는데, 과연 페이스북이 지능형 가정용 로봇을 개발할지, 그 로봇의 상용화 시점은 언제쯤일 지에도 귀추가 주목되고 있음


사람처럼 지능을 얻을 수 있는 로봇의 등장은 현재의 AI 논쟁과는 비교할 수 없을 정도의 사회적 논란을 야기할 것이며, 그 만큼 우리 삶의 모습을 근본적으로 뒤바꿔 놓을 가능성이 있어, 페이스북의 AI 연구 개발 성과에 큰 우려와 기대가 함께 쏟아질 전망