AI가 예술을 훔친다? 데이터셋 문제와 예술 윤리

[ 목차 ]

AI가 만들어낸 예술 작품이 점점 더 정교해지고 있는 오늘날, 우리는 단지 기술 발전을 찬양하는 데 그치지 않는다. 특히 예술가들의 원본 작품이 무단으로 학습 데이터로 사용되며, 이에 대한 법적, 윤리적 논쟁이 점차 뜨거워지고 있다. 이 글에서는 AI가 사용하는 데이터셋의 문제를 중심으로, 예술 윤리에 대한 물음과 함께 AI 시대의 창작에 필요한 새로운 기준을 고찰해보려 한다.

1. AI의 학습은 어디서 시작되었는가: 생성 배경의 그림자

AI 기반 예술 생성은 방대한 데이터에 대한 학습에서 출발한다. AI 모델, 특히 이미지 생성 AI는 수백만에서 수십억 개에 이르는 이미지와 텍스트의 조합을 학습함으로써 스타일, 구성, 구도, 색감 등의 패턴을 이해하고 재구성할 수 있게 된다. 그런데 이러한 데이터셋은 대부분 인터넷에 공개된 이미지들로 구성되며, 그 출처는 다양하지만 명확하게 저작권 허락을 받은 경우는 드물다. 이는 AI가 예술을 "모방"하거나 "재창조"하는 과정에서 근본적인 저작권 문제와 윤리적 논란을 불러일으킨다.

초기의 이미지 생성 AI들은 주로 오픈 소스 커뮤니티나 연구기관의 이미지 데이터셋(예: LAION-5B, COCO, ImageNet 등)을 기반으로 학습되었다. 이들 데이터셋은 수많은 아티스트의 작품, 일러스트, 사진, 심지어 상업적 콘텐츠까지 포함하고 있다. 그러나 대부분의 경우, 창작자의 동의 없이 이들 자료가 수집되었으며, 해당 창작자가 자신의 작품이 AI 훈련에 사용되었는지조차 인지하지 못하는 경우가 많다.

이러한 데이터 수집 방식은 기술적으로는 효율적이지만 윤리적으로는 심각한 문제를 안고 있다. 창작물은 단순한 이미지가 아니라, 창작자의 시간과 노력이 깃든 결과물이며, 그것을 무단으로 수집하고 AI의 학습 재료로 사용하는 것은 일종의 '디지털 도용'으로 해석될 수 있다. 특히 일부 AI 모델은 특정 작가의 스타일을 명시적으로 따라하거나, 이름을 입력하면 유사한 작품을 생성하는 기능까지 제공하면서 더 큰 반발을 일으켰다.

현재 많은 예술가와 단체들은 이러한 무단 학습 데이터 사용에 대해 법적 대응을 시작하고 있다. 2023년에는 유명 일러스트 작가들이 Stability AI, DeviantArt, Midjourney 등을 상대로 저작권 침해 소송을 제기했으며, AI가 학습한 데이터셋에 자신들의 작품이 포함되어 있음을 증명하기 위한 디지털 포렌식 분석이 활발히 이루어지고 있다. 동시에 'Opt-out' 기능을 제공하라는 요구가 이어지면서, 일부 기업은 데이터셋에서 작가 요청에 따라 작품을 제외하는 기능을 도입하기 시작했다.

AI 학습의 초기 구조는 기술적 진보를 위한 열정에서 비롯되었지만, 그 그림자에는 예술의 권리와 윤리적 기준이 충분히 고려되지 않은 채 전개된 측면이 있다. 앞으로의 방향은 명확하다. AI 학습의 출발점에서부터 투명성과 동의 과정을 강화하고, 예술가의 권리를 보호하는 데이터 수집 프로세스를 확립해야 한다. 이는 단순한 법적 요구가 아니라, AI가 예술의 영역에서 진정한 협력자가 되기 위한 필수 조건이다.

2. 데이터셋 속의 예술가들: 무단 사용의 현실과 파장

오늘날 AI 모델이 사용하는 데이터셋에는 유명 화가의 작품부터 무명의 디지털 일러스트레이터의 개인 작업까지 광범위한 콘텐츠가 포함되어 있다. 이들 중 상당수는 상업적 용도로 사용되기 어려운 저작물임에도 불구하고, AI 훈련을 위해 광범위하게 크롤링되고 데이터화된다. 특히 LAION 데이터셋은 수억 개의 이미지와 텍스트 캡션을 포함하고 있으며, 그중에는 Getty Images나 DeviantArt, Pinterest 등에서 크롤링된 것으로 추정되는 콘텐츠가 다수 포함되어 있어 논란이 끊이지 않는다.

많은 예술가들은 자신의 작품이 무단으로 학습 데이터로 사용되었음을 알고 충격을 받는다. 일부는 자신의 고유한 스타일이 AI에 의해 "학습"되고 모방되는 과정을 보며 창작자로서의 정체성에 깊은 상처를 입기도 한다. 실제로 온라인 커뮤니티에서는 “내 스타일로 AI 작품이 만들어졌다”, “내 그림을 입력하면 AI가 유사한 이미지를 쏟아낸다”는 경험담이 끊임없이 공유되고 있다. 이는 AI의 발전이 창작자에게 새로운 기회를 제공하기보다는, 오히려 시장에서의 경쟁력을 침식시키는 결과를 낳고 있음을 보여준다.

법적인 관점에서 보더라도 현재의 AI 학습 데이터 활용은 매우 모호한 지점에 놓여 있다. 미국 저작권법은 ‘공정 사용(fair use)’이라는 조항을 통해 교육, 연구 등의 목적에는 저작물 일부를 사용할 수 있도록 허용하고 있지만, 상업적 AI 모델의 훈련이 이에 해당하는지에 대해서는 아직 명확한 판례나 법적 해석이 존재하지 않는다. 유럽연합은 2024년 ‘AI법(AI Act)’을 통해 AI 학습 데이터의 출처 투명성 및 저작권 보호 의무를 강화하려는 움직임을 보이고 있으며, 이는 앞으로 글로벌 AI 산업에 중요한 기준점이 될 전망이다.

현재 일부 플랫폼과 개발사들은 '옵트아웃' 절차를 도입하여, 작가가 자신의 작품이 AI 훈련에 사용되지 않도록 요청할 수 있는 기능을 제공하고 있지만, 이는 여전히 초기 단계이며, 전체적인 문제 해결에는 한계가 있다. 대부분의 작가는 이미 사용된 데이터셋에서 자신의 작품을 제거하는 것이 불가능하다는 점에서 무력감을 느낀다.

이러한 현실에서 우리는 AI 기술 개발자와 예술가 간의 새로운 협약이 필요함을 절감하게 된다. 기술의 발전이 예술가의 권리를 침해하는 방식이 아닌, 공존과 상생의 방향으로 나아가기 위해서는 데이터 수집의 윤리적 기준과 법적 보호 장치가 시급히 정비되어야 한다. AI는 창작자들의 영감을 훔치는 기술이 아니라, 영감을 확장시키는 동반자가 되어야 하며, 이를 위해 가장 먼저 필요한 것은 '동의'라는 기본적인 윤리 원칙의 회복이다.

3. 예술 윤리와 데이터의 경계: 무형의 가치가 묻히는 시대

예술은 단순히 시각적 만족이나 기술적 완성도를 넘어서, 창작자의 철학, 감정, 그리고 사회적 메시지를 담는 매개체다. 그렇기 때문에 예술의 윤리는 언제나 창작의 맥락과 그 배경을 중요하게 여겨왔다. 그러나 AI 기술이 예술의 영역에 진입하면서 이 윤리적 기준은 심각한 도전에 직면하고 있다. AI는 인간처럼 감정이나 의도를 가지지 않고, 단순한 수치화된 패턴을 모사하는 방식으로 창작을 수행한다. 그렇다면 이들이 만들어낸 결과물도 예술이라 부를 수 있는가? 나아가, 그 결과물이 창작자의 동의 없이 수집한 데이터 위에 세워졌다면, 그 가치는 어떤 윤리적 의미를 가질 수 있을까?

AI가 사용하는 학습 데이터는 수많은 예술가의 창작물을 무차별적으로 흡수하면서도, 그 창작자의 맥락이나 의도를 고려하지 않는다. 인간은 특정한 사회, 역사, 개인적 경험 속에서 작품을 창조하며, 그것은 독립적인 스토리와 가치로 이어진다. 하지만 AI는 이런 배경을 이해하지 못한 채, 결과물의 시각적 유사성에만 집중한다. 이는 예술을 철저히 ‘상품화’하고, 정서적 맥락에서 분리하는 결과를 낳는다. 즉, 윤리적 맥락이 제거된 데이터 기반 창작은 진정한 예술의 의미를 훼손할 수 있다.

또한, 창작의 ‘원천’에 대한 무시가 광범위하게 퍼지고 있다는 점도 심각한 문제다. 수많은 AI 생성 작품이 상업적으로 이용되는 상황에서, 원작자나 그 스타일을 만든 예술가의 이름조차 언급되지 않는 경우가 다수다. 예술 윤리는 창작자의 권리뿐 아니라, 그 창작물이 사회와 맺는 관계까지 포괄해야 하는데, 현재의 AI 생성 프로세스는 이 관계를 완전히 단절시키고 있다. 그 결과, 예술가의 창의적 정체성과 노동은 보이지 않는 데이터의 뒤편으로 밀려나고, AI 기술만이 전면에 드러나는 왜곡된 창작 생태계가 형성되고 있다.

윤리적 기준의 부재는 새로운 갈등을 양산하고 있다. 일례로, AI가 만든 이미지가 예술 공모전에서 1등을 차지하거나, AI 작곡이 음악 플랫폼에서 상업적으로 유통되는 경우, 그 작품의 윤리적 정체성에 대한 질문이 쏟아진다. 이 작품들은 인간이 만든 원작의 영향을 얼마나 받았는가? 그 영향은 ‘참조’인지 ‘표절’인지, 또는 그 중간의 모호한 경계에 있는 것인가? 이러한 질문에 명확히 답하기 위해서는 AI 기술에 맞는 윤리적 기준과 정의를 새롭게 마련할 필요가 있다.

현실적으로, AI가 예술 분야에 완전히 배제될 수는 없다. 오히려 AI는 인간 창작자의 보조 도구로서, 창의력의 폭을 넓힐 수 있는 기회를 제공할 수 있다. 그러나 그러한 관계가 성립되기 위해서는 AI 학습 과정에 있어서 윤리적 기준이 철저히 정립되어야 하며, 특히 데이터 수집의 단계에서 창작자의 동의 여부, 출처 명기, 보상 방식 등이 제도화되어야 한다. 예술 윤리는 인간 중심적인 가치에서 출발하기 때문에, AI 기술이 인간 예술가의 창작을 지원하는 존재가 되기 위해선, 그 근본에 깔린 인간의 권리와 감성을 보호해야 한다.

향후의 발전 방향은 ‘투명한 AI’로 나아가야 한다. 즉, AI가 어떤 데이터를 바탕으로 어떤 기준에서 창작을 수행했는지를 명확히 밝히고, 그 데이터가 정당한 출처에서 왔는지를 공개해야 한다. 동시에 예술계와 기술계 간의 지속적인 대화와 협력이 필요하며, 윤리적 가이드라인을 산업 전반에 걸쳐 통합적으로 구축하는 노력이 요구된다. 이러한 노력이 없다면, 우리는 예술의 본질을 지키지 못한 채, 기술만 앞서는 허울뿐인 창작의 시대를 맞이하게 될 것이다.

4. AI 시대의 창작, 새로운 윤리의 조건

AI가 창작의 영역으로 본격적으로 들어온 지금, 우리는 예술의 본질에 대해 다시 질문하지 않을 수 없다. 예술은 단순히 결과물만으로 정의되는 것이 아니다. 그 창작 과정에 담긴 의도, 철학, 감정, 그리고 맥락이 함께 고려될 때 비로소 '예술'로서 의미를 갖는다. 그러나 AI는 정형화된 데이터를 입력받아 통계적 패턴과 확률 기반 알고리즘을 통해 결과물을 산출한다. 인간처럼 감정을 느끼거나, 철학을 사유하거나, 시대정신을 반영하는 방식으로 창작하지는 않는다. 이러한 창작 주체의 변화는 예술 윤리에 있어 과거와는 전혀 다른 기준과 원칙이 필요하다는 사실을 시사한다.

현재 우리는 기존의 저작권 개념과 예술 윤리를 적용하기에 턱없이 부족한 시대를 살고 있다. 대부분의 AI 모델은 인터넷상에 무차별적으로 퍼져 있는 이미지, 음악, 텍스트 등의 데이터를 학습하지만, 이 과정에서 창작자의 동의를 받거나 보상을 제공하는 구조는 거의 존재하지 않는다. 즉, AI가 만들어낸 ‘새로운’ 작품은 엄밀히 말하면 수많은 기존 예술가의 창작물 조각을 조합한 2차적 산물에 불과하다. 이러한 상황에서 창작의 권리, 저작의 귀속, 창작자에 대한 보상 문제는 그 어느 때보다 복잡하게 얽혀 있다.

이러한 모순을 해소하기 위해서는 새로운 윤리적 조건이 정립되어야 한다. 첫째, 투명한 데이터 출처 공개가 필수다. AI가 어떤 데이터를 학습했는지, 그 데이터가 어디에서 수집되었는지, 저작권이 어떻게 처리되었는지 등은 AI 창작물의 윤리적 정당성을 가늠하는 가장 기초적인 기준이 되어야 한다. 이를 통해 원작자에 대한 적절한 보상 체계를 마련하거나, 불법적으로 사용된 자료를 배제하는 조치를 취할 수 있다.

둘째, 동의 기반의 데이터 수집 시스템이 필요하다. 현재 대부분의 AI 학습 데이터는 비공개로 수집되거나, 공공 접근이 가능한 자료라는 이유만으로 저작권자 동의 없이 사용된다. 그러나 예술은 단순한 정보가 아니라 창작자의 정체성과 철학이 담긴 창조 행위다. 따라서 창작자의 동의 없이 이를 학습 데이터로 사용하는 것은 명백한 윤리적 침해다. 향후에는 창작자가 자신의 작품이 AI 학습에 사용될지 여부를 스스로 선택하고, 이에 따른 보상을 받을 수 있는 시스템이 마련되어야 한다.

셋째, AI 창작물에 대한 새로운 분류 체계도 필요하다. 지금까지는 인간이 만든 창작물과 AI가 만든 창작물을 같은 기준에서 판단하거나, 명확히 구분하지 않는 경우가 많았다. 그러나 AI가 만든 콘텐츠는 그 기원이 다르기 때문에, 감정적 깊이나 사회적 함의, 창의성의 구조 자체가 다르다. 따라서 AI 창작물을 독립된 범주로 정의하고, 이를 일반 창작물과 분리해 평가하고 유통하는 체계가 필요하다. 이는 소비자에게도 해당 창작물의 정체성에 대한 명확한 정보를 제공함으로써, 판단의 근거를 명확히 한다는 점에서 중요한 윤리적 역할을 한다.

마지막으로, 기술 개발자와 예술계 간의 윤리적 협업 구조가 마련되어야 한다. 기술자들은 모델의 성능을 높이는 데 집중하지만, 그 과정에서 윤리나 철학적 함의는 종종 간과된다. 반면 예술가들은 기술의 가능성과 위험성을 모두 체감하면서도 이를 제도적으로 대응할 방법이 부족하다. 이러한 간극을 메우기 위해서는 양측이 지속적으로 대화하고, 공통의 윤리 기준을 설정하며, 새로운 창작 방식에 걸맞은 규범을 함께 만들어나가는 것이 필수적이다.

AI의 창작 능력이 점점 더 발전하면서, 우리는 단순히 기술적 진보만을 바라볼 수는 없다. 예술은 인간 존재와 가장 밀접한 표현 행위이며, 그 본질을 지키는 것은 인간의 문화적 존엄성을 지키는 일이기도 하다. 따라서 AI 시대의 예술은 기술과 창작 사이에서 새로운 윤리를 요구받는다. 이 새로운 윤리는 단지 규범으로서의 의미를 넘어, 우리가 창작을 통해 무엇을 전하고자 하는지를 근본적으로 되돌아보게 한다. 창작이란 무엇인가? 표현의 자유는 어디까지 허용되는가? 그리고 타인의 예술을 사용하는 데 있어서 우리는 어떤 책임을 져야 하는가? 이러한 질문에 대한 진지한 고민이 바로, AI 시대 예술의 윤리를 이끌어가는 나침반이 되어야 할 것이다.

두둑한 하루

AI가 예술을 훔친다? 데이터셋 문제와 예술 윤리

1. AI의 학습은 어디서 시작되었는가: 생성 배경의 그림자

2. 데이터셋 속의 예술가들: 무단 사용의 현실과 파장

3. 예술 윤리와 데이터의 경계: 무형의 가치가 묻히는 시대

4. AI 시대의 창작, 새로운 윤리의 조건

티스토리툴바