※ 아래 글은 정보통신기술진흥센터(IITP)가 발간하는 주간기술동향 1777호(2016. 12. 21 발행)에 기고한 원고입니다. 


▶ IITP에서 PDF 포맷으로 퍼블리싱한 파일을 첨부합니다. 가독성이 좋으니 참고하시기 바랍니다.

인공지능 이용 기사 진위 판정.pdf



[ 요 약 ]


이번 미국 대통령 선거에서는 가짜 뉴스가 난무하여 유권자들이 적지 않은 영향을 받았다는 점이 문제로 제기되었음뉴스의 제목이 충격적이고 기사의 주장에 의구심을 가질 만한 소지도 많았음에도가짜 뉴스는 페이스북을 통해 확산되며 실질적인 영향력을 끼쳤음이런 문제를 해결하기 위해 인공지능을 이용해 가짜 뉴스를 판정하려는 시도가 이루어지고 있으며그 동안 유보적 입장을 취해왔던 페이스북도 AI를 이용해 적극 대응에 나설 것으로 전망




[ 본 문 ]


◈ 페이스북에 표시되는 뉴스에 허위 정보가 포함되어 있다는 사실은 선거가 시작되기 훨씬 전부터 문제로 지적되어 왔으나 트럼프 당선 이후 단숨에 정치 문제로 비화


문제를 제기하는 사람들은 페이스북 측이 트럼프에 유리한 허위 뉴스를 뉴스피드에 게재한 뒤, 입소문 효과를 통해 트럼프 지지자가 늘었다고 주장함


실제로 대선에서는 자극적인 제목으로 눈길을 끈 거짓 뉴스들이 난무했는데, 일례로 WTOE 5 News라는 사이트는 교황이 트럼프를 대통령으로 지지한다는 거짓 기사를 올렸는데, 팩트 체크 사이트는 이 기사가 거짓으로 주의를 환기시킨 허위라고 판정


또한 National Report라는 사이트는 힐러리가 미국의 국가(國歌)를 재검토 할 것을 제안했다는 기사를 게재했는데, 내용은 힐러리가 가사 내용이 권총 등에 의한 폭력으로 이어질 우려가 있고, 종교와 국가의 분리 원칙에 저촉되기 때문에 반대한다는 것


페이스북의 CEO 마크 저커버그는 이런 허위 뉴스가 승패에 영향을 미쳤다는 분석에 대해서는 여전히 부정하고 있지만 가짜 뉴스를 억제하는 대책을 취할 것임을 밝혔음


◈ 가짜 뉴스에 속아 넘어가는 사람이 얼마나 되겠냐는 반론도 있지만, 사람들이 기사를 읽으며 이상하다고 느끼기는 하지만 실제로 허위라고 판단하는 것은 쉽지 않다는 지적


뉴스 사이트의 이름이나 외관, URL은 진짜처럼 보이고, 이미 자극적인 제목의 기사들이 많기 때문에 기사의 제목을 보고 허위 기사라고 단박에 알아차리기는 어려움


기사를 일단 읽기 시작하면 공감이 가는 부분도 있기 때문에 끝까지 읽게 되고, 비록 군데군데 위화감을 느끼기는 하지만 기사가 허위임을 간파하지는 못하며 오히려 흥미로운 내용에 관심을 갖게 된다는 것


앞서 예로 든 National Report는 이름만 보면 권위 있는 뉴스 사이트처럼 보이나 기실 이 사이트는 허위 뉴스만 게재하고 있으며, ABCNewsc.com.co처럼 순간 착각을 불러일으키도록 대놓고 굴지의 언론을 사칭하는 경우도 있음


이들 사이트의 목적은 매력적인 허위 뉴스를 통해 페이지 뷰를 발생시켜 웹사이트에 게재되는 광고로 수익을 얻는 것이며, 페이지 뷰가 높은 뉴스의 경우 한 건으로 약 1만 달러의 광고 수입이 발생하는 것으로 알려지고 있음




<자료> WTOE 5 News, National Report


[그림 1] 최악의 가짜 뉴스로 꼽힌 교황의 도널드 트럼프 지지 뉴스(위)


• 허위 뉴스 문제가 불거진 후 현재 구글은 허위 뉴스 사이트에 광고 게재를 중지하고 있으며, National Report 웹사이트의 광고 수입은 급감했다고 함


National Report 같은 사이트는 허위 뉴스를 발신해 왔으나 회사 자체의 사회적 영향력은 제한적일 수밖에 없었는데, 페이스북 같은 SNS와 접목되면서 영향력이 증폭되었음


페이스북 등 소셜 미디어에 기사가 노출되고 좋아하는 사람이 늘어나 기사의 링크가 공유되기 시작하면 이런 허위 기사들의 노출 빈도가 폭발적으로 늘어나게 됨


페이스북은 인기 기사를 트렌딩(Trending)으로 묶어 제공하고 있는데, 여기에 가짜 뉴스가 게재되면 전국적인 규모로 확산이 가능해지며, SNS의 소셜 기능을 악용하는 이런 과정이 가짜 뉴스가 여론을 움직일 수 있는 기반이 되고 있음


가짜 뉴스는 읽는 사람들에게만 영향을 미치는데 그치지 않고, 대통령 선거운동 과정에서 트럼프 진영이 허위 뉴스를 인용해 힐러리 후보를 공격하는 장면까지 나왔음



<자료> Eric Trump.


[그림 2] 선거운동에 사용된 가짜 뉴스 사례


• 도널드 트럼프의 아들인 에릭 트럼프는 가짜 뉴스라 생각되던 기사의 내용을 근거로 논쟁을 벌였는데, 트윗을 통해 트럼프 연설회장에서 반대 운동을 하는 활동가들은 힐러리 진영에서 3,500 달러를 받고 있다는 내용의 기사를 인용했음


그러나 인용된 기사는 사실이 아니었으며, 해당 트윗은 삭제되었지만 복사본이 지금도 많은 사이트에 게재되어 있으며, 선거의 당사자들도 가짜 뉴스를 분간하는 데 오랜 시간이 걸려 영향력은 오래 시간 동안 지속되었음


◈ 페이스북이 대선 과정에서 허위 뉴스 논란에 대해 일단 부정하는 태도를 보이긴 했지만 실제로는 일찍부터 소위 가짜 뉴스(Hoaxes)에 대한 대책을 취하고 있었음


2015 1월에는 페이스북 회원들이 가짜 뉴스를 보고 신고할 수 있는 시스템을 도입했는데, 이는 스팸 메일을 신고하면서 뉴스피드에 노출된 뉴스가 사실이 아닌 경우 그 주요 내용을 신고할 수 있도록 하고 있음


회원들의 신고를 통해 가짜 뉴스가 뉴스피드에 표시되는 횟수가 감소했다고 하는데, 크라우드 소싱 기법을 이용해 대응책을 시작한 것임


◈ 페이스북은 2016 8월부터는 뉴스피드에 클릭베이트(Clickbait) 기사를 삭제하는 대책을 내놓았는데, 클릭베이트는 우리 말로는 클릭을 유도하는 낚시 기사를 뜻함


믿을 수 없는 사실, 어젯밤 레드 카펫 위에서 연예인끼리 싸움, 누구일까..라고 제목을 달면 궁금해 하는 사람들이 링크를 클릭해 자세히 읽게 되는데, 이는 사이트로 유도하는 상투적인 수법이지만 여전히 통하는 수법이기도 함


페이스북 이용자들에게 클릭베이트는 여전히 인기가 많지만, 페이스북은 클릭베이트 기사들이 뉴스피드에 노출되는 횟수를 억제하고 있음


클릭베이트에는 독자를 오도하는 기사도 포함되므로 이를 억제하면 가짜 뉴스를 방지하는 기능도 하게 되는데, 페이스북은 클릭베이트 기사 대응을 위한 알고리즘을 개발하고 탐지 프로세스를 자동화하였음


페이스북은 특정 사이트로 유도하는 기사나 오보의 제목 사례를 모아 클릭베이트 데이터 세트를 작성했으며, 이 사례를 기준으로 일반 뉴스들의 제목과 비교해 클릭베이트에 특유한 징후를 식별하고 있음


또한 클릭베이트를 검출하는 알고리즘을 개발해 이를 기계학습 방법으로 교육시킴으로써 검출 정밀도를 높여 가는데, 이는 스팸을 검출하는 방식과 유사하며 뉴스피드에서 허위 뉴스를 배제할 수 있을 것으로 기대를 받아 왔음


페이스북이 이러한 조치를 취하고 있음에도 불구하고 가짜 뉴스는 계속 증가했으며 대선에서 유권자에게 혼란을 초래하게 되었음


◈ 페이스북이 개발한 알고리즘은 뉴스의 제목을 기준으로 허위 여부를 판정하기 때문에 기능이 충분하다고 말할 수 없으며, 사실 관계의 확인이 필요한 경우 더욱 한계가 존재


사실 기사의 허위 여부를 판정하는 것은 사람에게도 어려운 일이며, 명백한 거짓은 판정하기 쉽지만, 내용을 파악하고 사실 관계의 검증이 요구되는 기사들이 대부분임


허위 뉴스라도 황당한 내용만 있는 것이 아니며, 해킹 수법 중 소셜 엔지니어링 기법처럼, 당시 맥락에 맞게 작성되는 것들은 그럴 듯하다고 여겨지기 때문에 내용을 읽고 나서도 판단하기 어려운 경우도 있음


<자료> ABCNews.com.co.


[그림 3] 시의성의 빠른 가짜 뉴스


• 일례로 거짓 뉴스로 판명되었지만, 선거 직후 트럼프의 당선이 결정된 직후 오바마 대통령이 대통령령을 발동해 선거 결과를 검증한다는 기사가 발행되었는데, 이처럼 대부분의 경우 뉴스 기사를 읽은 것만으로는 진실 여부를 판단하는 것이 어려움


우선 기사에서 언급된 주장을 뒷받침하는 사실을 확인하는 작업이 필요하기 때문에, 주장의 출처를 찾고 사실 관계를 확인해야 함


또한 주장을 뒷받침하는 사실이 확인되었다고 해도, 기사에서 사실을 과장하거나 확대 해석하는 경우가 적지 않은데, 기사 검증은 이러한 단계를 모두 거치고 나서야 내용이 올바른지 판정을 내릴 수 있음


기사 검증은 진위를 판정하는 것이 목적이지만 판정할 수 없는 경우도 많이 있는데, 가령 트럼프가 대통령에 선출된 데 대해 트럼프에 반대하는 사람들을 중심으로 #NotMyPresident를 표방한 항의 시위가 미국 각지에서 발생하였음


이에 관한 기사 중에는 시위대는 사실 투표소에 가지 않았고, 힐러리에게 투표하지도 않았다고 쓴 것도 있는데, 이에 대한 사실 관계는 확인하기가 어려워 기사의 진위를 판명할 수 없으며, 진실을 밝혀 내기에 현실적으로 한계가 존재함


◈ 이 문제 해결을 위해 많은 곳에서 방법을 제안하고 있는데, 화이트 해커들이 인공지능(AI)을 이용해 페이스북에 게재된 기사의 진위를 판정하는 기법을 개발


프린스턴 대학에서 열린 해커톤 행사 기간 중에 4명의 대학생들은 36시간 만에 가짜 뉴스를 판정해내는 AI 기반 소프트웨어를 개발하였음


이들이 개발한 소프트웨어 FiB는 브라우저의 플러그인으로 설치되며, 페이스북의 기사를 읽고 그 내용을 판별하는데, 기사가 허위라고 판단되면 검증되지 않음(Not Verified), 사실이라 판단되면 검증됨(Verified)이라고 표시함


<자료>FiB Project.


[그림 4] AI 기반 가짜 뉴스 판정시스템 FiB


• 일례로 대마초가 암 세포를 파괴한다는 기사에 대해서는 분석 후 사실이 아니라는 판단 하에 Not Verified라 표시하였음


FiB AI를 이용하여 기사에 게재되어 있는 사진을 인식하여 이를 텍스트로 변환하고, 또한 기사에서 키워드를 추출한 다음 검색 엔진에서 그 내용의 출처를 조사한 후 사실 여부를 확인한다고 함


가령 트위터에 게재된 내용이라면 스크린샷이 게재되어 있는 경우 트위터에 해당 내용이 있는지 검색하여 그 출처의 진위를 확인함


대학생들은 공개된 AI 클라우드의 API를 최대한 활용하여 시스템을 만들었다고 하는데, 마이크로소프트 인지 서비스(Microsoft Cognitive Services), 트위터 검색 API(Twitter Search API), 구글 안전 브라우징 API(Google Safe Browsing API) 등이 사용되었음


기사 판정의 정확성 검증은 앞으로 해나가야 하겠지만, 세계 최첨단 AI 기술을 보유한 페이스북 보다 먼저 솔루션을 개발한 것은 주목할 만함


◈ 알고리즘 개발과는 별도로 많은 단체들이 수작업을 통해 기사의 진위를 판정하고 있는데, 이들 팩트 체크 사이트들은 가짜 뉴스에 현혹되지 않도록 주의를 환기시키고 있음


<자료>FactCheck.org.


[그림 5] 팩트 체크 사이트 FactCheck.org


FactCheck.org는 대표적인 팩트 체크 사이트로 펜실베이니아 대학의 연구 기관으로서 활동을 시작한 독립적 비영리단체로, 원래 정치 문제에 관한 정치인 주장의 진위를 자세히 확인하며 사실 관계를 바로 잡아주는 역할을 해왔음


가령 미국 하원의장 폴 라이언이 미국의 의료제도인 메디케어(Medicare)가 오바마케어에 의해 파탄되었다고 주장한 것에 대해, 사실 확인 결과 잘못된 주장임을 설명


FactCheck.org는 대선 기간 중에는 유권자들이 가짜 기사나 허위 사실 유포에 현혹되지 않도록 독자들에게 가짜 뉴스 분별 방법 등을 알려주는 역할도 하였음


1995년에 설립된 인기 팩트 체크 사이트인 Snopes.com은 이메일이나 포럼을 대상으로 기사의 진위를 판정하는 목적으로 설립되었음


대통령 선거 과정에서는 정치 뉴스에 초점을 맞추고 문제점을 지적하며 유권자들의 주의를 환기시켰는데, 알기 쉬운 표현으로 많은 사람들에게 이용되고 있고, 정치 문제뿐만 아니라 비즈니스, 엔터테인먼트, 건강, 종교, 기술 등 폭 넓은 분야를 커버함


◈ 미국 대통령 선거는 끝이 났지만, 가짜 뉴스는 선거 전부터 시작되었고 선거 과정을 통해 그 실제 영향력이 확인되었기에 앞으로도 계속 이어질 것으로 예상되고 있음


미국에서 민간인에게 수여하는 최고 훈장인 대통령 자유의 메달(Presidential Medal of Freedom) 수여식이 선거 직후인 11 22일 백악관에서 거행되었으며, 영화 배우 로버트 드 니로 등에게 오바마 대통령이 메달을 걸어주었음


이 날 클린트 이스트우드의 것으로 보이는 트위터 계정에 오바마는 나의 대통령이 아니므로 그가 주는 어떤 메달도 받지 않겠다는 내용의 트윗이 올라왔고, 트위터 상에서 리트윗 되었으며, 이런 내용을 다룬 가짜 뉴스들이 나돌기 시작했음


<자료>Snopes.com.


[그림 6] 클린트 이스트우드를 사칭한 트윗


• 그러나 최초 트윗은 이스트우드인 것처럼 보이게 @ClintEastwoodLA라는 계정을 쓰고 프로필에 이스트우드의 사진을 사용한 사람이 발신한 것이었으며 곧 사실이 아닌 것으로 판명되었음


그럼에도 이스트우드가 트럼프 지지자이기 때문인지 이 트윗은 소셜 미디어 상에서 계속 리트윗 되고, 이를 소재로 작성된 뉴스들이 SNS 상에 계속 흘러 다니고 있음


최초의 트윗과 가짜 뉴스 사이의 연관성은 아직 밝혀지지 않았지만, 만약 치밀하게 계획된 것이라면, 이는 앞으로 가짜 뉴스 생성이 보다 교묘해질 것이고, 사실 관계를 파악하기가 점점 더 어려워지게 될 것임을 시사


◈ 페이스북은 자신들이 미디어 기업이 아니라는 입장을 강조해 왔으나, 현실적으로 페이스북은 가장 강력한 뉴스 소비 매체이므로 보다 적극적인 대책 마련이 필요한 시점



• 퓨 리서치(Pew Research)에 따르면 소셜 미디어가 일상이 되면서 뉴스를 읽는 방법이 크게 바뀌어 미국 성인의 62%가 소셜 미디어에서 뉴스를 읽고 있음


특히 페이스북을 통해 미국 성인의 44%가 뉴스를 읽는 것으로 나타나 유튜브나 트위터에 비해 뉴스 전달 매체로서 페이스북은 절대적인 위치를 차지하고 있음



<자료>Pew Research.


[그림 7]  SNS 이용자 중 뉴스 이용 빈도


마크 저커버그는 그 동안 페이스북은 미디어 기업이 아니어서 기사의 진위를 자체적으로 결정할 수 없다는 입장을 취해왔으며, 기사 진위 판단은 독자에게 맡겨졌음


하지만 페이스북이 미국 최대의 뉴스 전달 기업이 되었다는 사실을 감안하면, 배치하는 뉴스의 품질에 페이스북이 책임을 져야 한다는 목소리가 점차 힘을 얻고 있음


마찬가지로 구글이나 트위터에 대해서도 가짜 뉴스 대책 마련을 강하게 요구되고 있으며, 구글은 이미 가짜 뉴스 사이트에 광고 게재를 중단하였음


가짜 뉴스가 전 사회적 문제가 되면서 페이스북 내에서 문제 의식을 가진 직원들이 모여 자발적으로 문제 해결을 위해 움직이기 시작했다는 소식도 전해지고 있으며, 저커버그도 그 동안의 입장을 바꾸어 적극적인 대책 마련에 나선다고 밝혔


최근 페이스북은 가짜 뉴스를 자동으로 삭제하는 도구에 대해 특허를 출원하였으며, 아마도 AI를 활용한 솔루션이 개발되었을 지도 모르며, 구글이 이메일에서 스팸을 필터링 하는 것처럼 조만간 뉴스피드에서 가짜 뉴스도 상당수 걸러지게 될 것으로 기대


AI로 작성되는 기사의 유형과 수가 늘어나고 있는 상황에서, 허위로 작성된 기사의 진위 여부를 판정하는 역할도 AI에 맡겨지게 되고, AI 개인비서가 뉴스를 선택해 들려 주는 시대가 되면, 뉴스 산업은 AI 기반으로 재편되는 대표적 사례가 될 전망