
2025년 12월 11일, 「‘AI 주권’ 시대의 민주주의」를 주제로 NED 전문가 자문회의가 개최되었다. 이날 박경신 오픈넷 이사는 AI와 민주주의의 관계, 그리고 ‘AI 주권’ 담론이 초래할 수 있는 위험성에 대해 다음과 같은 내용을 발표했다.
우리가 AI와 민주주의에 대해 우려해야 하는 이유는 사람들이 웹을 직접 탐색하고 개별 웹사이트의 정보를 확인하기보다, AI가 요약한 내용을 그대로 신뢰하는 경향이 점점 강해지고 있기 때문이다. 딥페이크나 AI 요약과 같은 AI의 출력물은 충분한 사실 확인 과정을 거치지 않은 채 받아들여지고 있으며, 사람들은 인터넷보다 AI에 더 많은 시간을 보내고 있다.
인터넷은 방송을 지배하던 엘리트 집단에 국한되어 있던 대중 커뮤니케이션의 힘을 모든 개인에게 분산시킴으로써 민주주의의 촉매 역할을 해왔다. 마찬가지로 AI 역시, 과거 엘리트에게만 허용되던 지식의 힘을 모든 개인에게 제공할 수 있다는 점에서 민주주의를 위한 잠재력을 지닌 기술이다. 이러한 의미에서 AI는 분명 민주주의를 위한 기회이기도 하다.
그러나 AI가 지식 제공자로서 인터넷의 자리를 대체해 가는 상황에서, 우리는 AI를 기회이자 동시에 위협으로 바라보아야 한다. 그럼에도 불구하고 AI를 오직 위협으로만 인식하는 잘못된 선택은 ‘AI 주권’이라는 담론을 낳고 있다. 이는 단순히 한 국가가 자체적인 AI 역량을 개발하겠다는 야망을 넘어, 지역 보호와 진흥을 명분으로 AI와 그 출력물에 대한 지방정부의 통제를 정당화하려는 주장으로 확장되고 있다.
첫째, ‘주권’ 담론은 데이터 현지화를 정당화하는 근거로 활용되어 왔다. AI는 방대한 인간 행동 데이터를 분석하고, 인간의 프롬프트에 대해 통계적으로 가장 가능성 높은 응답을 생성하는 확률적 기계다. 이런 점에서 데이터가 ‘새로운 석유 자원’이라는 주장은 일정 부분 타당하다. 그러나 일부 국가는 이를 문자 그대로 받아들여, 마치 핵무기나 천연자원을 확보하듯 데이터를 자국 내에 가두려 하고 있다.
우리는 이미 데이터 현지화가 표현의 자유와 프라이버시를 침해한다는 사실을 경험을 통해 확인해 왔다. 내가 책에서 지적했듯, 데이터 현지화는 부분적인 인터넷 차단과 다르지 않으며, 그로 인한 검열과 감시의 위험은 데이터 현지화가 가져올 수 있는 어떠한 이익보다도 크다. 그럼에도 불구하고 AI 주권은 데이터 현지화를 정당화하는 강력한 명분으로 활용되고 있다. 열악한 연결 인프라와 취약한 언어 환경을 가진 필리핀, 그리고 부족한 AI 역량으로 인해 시급한 기술 축적이 필요한 인도네시아는 ‘주권 AI’를 추가적인 통제 수단으로 사용할 가능성이 있다. 실제로 인도는 2022년 대규모 언어 모델(LLM)의 현지화 방안을 검토한 바 있다.
AI가 ‘당신’을 위해 작동하기 위해서는, 당신의 행동 데이터가 학습 데이터에 포함되어야 한다. 민주주의를 위해, 즉 AI가 모든 사람을 위해 작동하도록 만들기 위해서는 모든 사람의 데이터가 학습 데이터에 포함되어야 한다. 예를 들어, 아마존의 채용 AI가 여성에게 불리한 결과를 낳았던 것은 성공한 여성 임원에 대한 데이터가 학습 과정에서 충분히 반영되지 않았기 때문일 가능성이 크다. 학습 데이터의 다양성은 AI의 핵심 요소다. 글로벌 AI의 학습 데이터에 특정 지역의 데이터가 포함되지 않는다면, 해당 지역은 AI로부터 충분한 혜택을 누릴 수 없게 된다. 한국의 콘텐츠가 글로벌 AI 학습 데이터에 포함되지 않는다면, 독도 분쟁과 같은 국제적 사안에서도 한국의 입장에 불리한 결과가 생성될 수 있다.
둘째, 주권 AI 담론은 AI 학습 데이터, 나아가 궁극적으로 학습 데이터가 되는 공개 온라인 콘텐츠에 대한 행정적 검열을 정당화하는 데 이용될 수 있다. 행정적 검열은 독일의 NetzDG 도입 이후 동남아시아 지역에서 새로운 규제 트렌드로 자리 잡았으며, 이는 정부가 온라인 담론 형성에 직접 개입할 수 있는 구조를 만들어 왔다. 이러한 흐름은 ‘주권 AI’의 입력물과 출력물 모두에 영향을 미칠 가능성이 크다. 권위주의 세력이 주권 AI 개발을 장악할 경우, 학습 데이터에서 반군주제 콘텐츠를 제거하는 방식으로 검열을 더욱 강화할 위험도 존재한다. 태국의 경우, 정부 주도의 개발이 두드러지는 반면, 한국의 ‘주권 AI’는 민간이 주도하고 정부가 이를 지원하는 구조라는 점에서 차이가 있다.
모든 기초 모델은 특정한 사전학습 과정을 거쳐 제공되며, 이 과정에서 개발자가 큐레이션한 학습 데이터의 영향을 이미 반영하고 있다. 예컨대 DeepSeek은 오픈소스 모델이지만, 중국 정부의 검열이 반영된 데이터로 사전학습되었기 때문에 중국 내 정치적으로 민감한 사건을 다루지 못하는 것으로 보인다. 따라서 글로벌 AI가 특정 국가의 맥락에서 제대로 작동하기 위해서는, 해당 지역의 현실을 반영한 추가적인 학습 데이터 조정이나 사후 학습이 필요할 수 있다.
학습 데이터의 조정은 다른 이유에서도 필요하다. 마이크로소프트의 챗봇 Tay는 트위터 데이터로 학습되었고, 논란을 일으킬수록 더 많은 관심을 받는 구조를 학습한 결과 인종차별적·성차별적 발언을 쏟아냈다. 우리가 바람직하지 않다고 판단하는 인간 행동이 있다면, 이를 학습 데이터에서 제거해야 한다. 이는 현재의 AI가 머신러닝에 기반하고 있기 때문이다. AI는 어린아이가 시행착오를 통해 학습하는 방식과 유사하다. 아이는 고양이나 개를 개념적으로 정의하지 못하지만, 충분히 많은 고양이 사진과 개 사진을 접하면 이를 구별할 수 있게 된다. 이와 같은 은유를 적용한다면, 우리는 AI를 학습시키는 ‘교과서’에 무엇을 담아야 할지 고민해야 한다. 교과서의 내용을 신중하게 큐레이션하는 것은 당연한 일이다.
그러나 이 과정에 정부가 개입해서는 안 된다. 학습 데이터의 정제와 큐레이션은 시민단체와 AI 개발자가 협력하여 수행해야 한다. 우리는 정부가 어떤 데이터를 제거할지 직접 지시하지 않으면서도, 이러한 정제 과정 자체를 요구하는 규제가 필요하다고 본다. 그리고 그 규제에는 정부의 데이터 조정 개입을 전면적으로 금지하는 내용이 반드시 포함되어야 한다.
0 Comments