brunch

매거진 Tech Ethics

라이킷 13 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 카카오 정책산업 연구 Mar 28. 2024

책임감은 높이고, 편리함은 더한 Karlo

<<Tech Ethics 10호>>

이미지 생성 기술은 인공지능(Artificial Intelligence)의 빠른 발전을 확인할 수 있는 대표적인 분야입니다. 이용자가 프롬프트(prompt, 생성형 인공지능 모델을 작동하기 위해 입력하는 단어나 문장)를 입력하면, 단순한 그림부터 특정 화가의 화풍, 게임 속 가상의 캐릭터 등 무궁무진한 이미지를 만들어 낼 수 있습니다. 이 때문에 디지털 아트, 게임 디자인, 영화 제작, 교육 콘텐츠 개발 분야에서 활용을 검토하고 있고, 적용할 수 있는 영역은 더욱 늘어나는 추세입니다. 이 기술을 통해 컴퓨터가 스스로 이미지를 생성하면, 이용자는 상상력을 확장하고, 창작 시간이나 과정을 혁신적으로 변화시킬 수 있습니다.

이미지 생성 모델은 인공지능의 한 분야인 딥러닝을 활용하여 작동하는 기술입니다. 이미지 생성 모델은 대량의 이미지 데이터를 학습해 이미지를 구성하는 패턴과 특징을 이해합니다. 이를 통해 새로운 이미지를 생성할 수 있게 됩니다. 예를 들어, 이용자가 “테이블 위에 노란 사과가 있는 모습"이라는 텍스트 설명을 입력하면, 이미지 생성 모델은 학습한 데이터에서 사과, 테이블, 색상 등의 패턴과 특징을 찾아낸 후 이를 조합해 새로운 사과 이미지를 생성합니다.

그림 1. 이미지 생성 모델이 이용자가 요청하는 이미지를 창조하는 과정

카카오브레인의 이미지 생성 기술

카카오브레인은 텍스트 기반 이미지 생성 모델인 '칼로(Karlo)'를 개발했습니다. 칼로는 이용자의 얼굴 기반의 이미지 생성, AI 이미지 편집, 언어 모델 기반 프롬프트 자동 생성 등 다양한 응용 기술을 제공하고 있어 다양한 산업 분야에서의 응용이 기대되는 이미지 생성 모델입니다.

2022년 4월 ‘RQ-Transformer 3.9B’라는 AI 이미지 생성 모델을 오픈소스로 공개한 이후 다양한 응용 기술과 이미지 생성 모델을 고도화했으며, 2022년 12월에는 ‘칼로’ 모델을 공개했습니다. 또한 2224년 3월 2.1버전의 모델을 출시하여 고품질의 이미지를 생성할 수 있는 API와 서비스를 제공하고 있습니다.

특히 칼로 2.1버전은 모델의 규모 향상과 선별 데이터를 사용한 조정(tuning)으로 더 높은 품질 이미지를 제공합니다. 실제로 칼로 2.1모델의 이미지 생성 결과물 품질은 세계에서 폭넓게 사용되고 있는 스테이블 디퓨전 모델에 뒤지지 않으며 사용자의 의도를 사실적으로 표현하는 면에서는 더 뛰어난 결과를 보여줍니다.

아래 표는 coco_10k 데이터셋으로 품질을 정량 평가한 결과입니다.(기준: 2024년 3월)

그림 2. 칼로와 스테이블 디퓨전이 만들어낸 이미지 결과물에 대한 정량 평가 결과

칼로 2.1모델은 카카오브레인 자체 품질 평가 결과 Stable Diffusion의 SDXL 1.0 모델보다 지시한 프롬프트 내용에 더 적합하며 이용자가 요청한 실제 이미지와 유사도가 높은 이미지를 생성하는 것으로 나타났습니다.

카카오브레인은 고품질 이미지 제공뿐만 아니라 연구 개발 과정에서 더 많은 이용자가 경계 없이 AI 기술을 활용하는 기회를 제공하는 것에도 중점을 두고 있습니다. 22년 10월, 일반 이용자를 위한 소셜향 AI 미디어 콘텐츠 제작을 위한 B^Discover(비디스커버)라는 앱 서비스를 출시했습니다. 23년 7월에는 준전문가를 위한 AI 이미지 생성 및 편집 웹 서비스 Karlo Service(칼로 서비스, karlo.ai)를 공개했습니다. 23년 11월에는 누구나 쉽게 카카오톡을 통해 AI 기술을 활용한 프로필 이미지를 생성할 수 있는 카카오톡 채널 ‘칼로 AI 프로필'을 개설했고, 조만간 카카오톡을 통해 Karlo로 이미지를 생성할 수 있는 karlo 톡채널을 준비하고 있습니다.

생성형 이미지 모델과 관련된 다양한 이슈

기존에 없던 혁신 기술들이 등장하면 이로 인한 사회, 윤리적 이슈도 발생합니다. 최근 이미지 생성 기술이 직면한 문제는 모델이 학습한 데이터의 저작권과 이른바 딥페이크(deepfake)를 포함한 비윤리적 악용입니다.

데이터 저작권 이슈는 생성형 인공 지능을 비롯한 AI 기술이 숨 가쁘게 만들어지고 변화하는 반면, 인공지능에 대한 전반적인 규제와 학습 과정에 대한 법률 및 각종 제도가 아직 미비하다는 점에서 기인합니다. 생성형 이미지 모델이 이용자의 요구에 따른 창작물을 생성하려면 다양한 이미지 학습이 선행되어야 합니다. 이 과정에서 기존의 예술작품이나 저작권이 있는 이미지가 학습 데이터로 사용했다는 주장이 제기되었습니다. 또한 원작이 있는 이미지의 스타일과 유사한 것을 생성하는 경우 원작의 2차 창작 같은 파생 작품으로 해석될 수도 있어, 원작의 저작권을 소유한 개인이나 조직의 권리를 침해할 수 있다는 우려도 있습니다. 예를 들어, AI가 유명 예술가의 작품을 학습한 경우, 마치 유명 예술가가 그린 것 같은 모방 이미지가 생성될 수 있습니다. 이런 경우 원작자의 저작권과 AI를 이용해서 이미지를 생성하는 측의 저작권과 관련된 이슈가 있고, 현재 많은 논쟁이 있는 상황입니다.

두 번째 현안은 이미지 생성 기술이 선정적이거나 폭력적인 콘텐츠를 생산할 위험과 이른바 허위 사실 유포를 위해 사용될 수 있다는 점입니다. 생성형 이미지 모델은 이용자가 입력하는 프롬프트에 따라 창작물을 만들어 냅니다. 이러한 구조 때문에 생성형 이미지 제공업체가 금칙어나 여러 제동 장치를 설치해도 사회적 기준에 어긋난 음란, 잔혹한 이미지를 만들어 낼 가능성도 있습니다.

딥페이크 기술은 실제와 구분하기 어려운 가짜 비디오나 이미지를 생성하는 데 사용됩니다. 이 기술은 공공 인물의 얼굴이나 목소리를 조작하여 허위 정보를 유포하거나 개인의 명예를 훼손할 수 있어 큰 윤리적 우려를 낳고 있습니다. 딥페이크는 정치적 조작, 개인의 사생활 침해, 사회적 혼란을 야기할 수 있으며, 이에 대응하기 위한 법적, 기술적 해결책이 요구되고 있습니다.

카카오브레인은 사회 및 전문가들과 함께 협력하여 투명성, 책임성, 그리고 저작권 보호 등의 원칙을 지키는 것이 디지털 기업의 사회적 책임이라고 생각합니다. 이를 위해 카카오브레인은 지속적인 연구와 기술 개발과 더불어 관련 문제가 발생하지 않기 위한 예방 조치도 착실히 준비하고 있습니다.

안전한 학습 데이터 확보를 위한 노력

생성형 이미지 모델 학습에는 대규모의 이미지 데이터가 필요합니다. 이 때문에 생성형 이미지 모델 학습은 공개 데이터셋을 쓰거나 웹 크롤링 등을 통해 이미지를 수집해서 사용하는 경우가 많습니다. 크롤링 등을 통해 수집한 이미지를 학습에 이용하면 저작권 문제나 부적절한 내용이 학습될 수 있습니다.

이러한 문제를 방지하기 위해 칼로는 CLIP zeroshot 기반 k-nn classifier로 학습된 NSFW(Not Safe For Work)체커를 통해 부적절한 내용이 학습에 사용되지 않게 방지했고, 인물이나 사진 데이터에 대해서는 선정성이나 저작권, 부적절한 표현이 담기지 않은 것을 사람이 선별하는 과정을 거쳐서 학습 데이터로 사용했습니다.

부적절한 이미지 생성을 막는 시스템 구축

칼로는 생성 결과가 혐오물이나 부적절한 이미지인 경우를 분류해서 사용자에게 보여주지 않는 기능을 탑재하고 있습니다. 노출도가 높거나 혐오를 초래한 결과물이 나온 사례를 이미지 분류 모델에 학습시켜 구현한 NSFW 필터를 이용해서 안전하지 않은 이미지가 출력되는 것을 사전에 방지합니다.

그림 3. NSFW 필터가 부적절한 이미지 출력을 방지한 결과

그럼에도 사용자가 의도적으로 부적절한 표현을 요구할 수 있기 때문에 자체 개발한 금칙어 데이터베이스를 활용하여 사용자 입력에서부터 부적절한 콘텐츠의 생성 가능성을 최소화합니다. 이 데이터베이스에는 프롬프트로 지원하는 언어에서 사용될 수 있는 부적절한 단어, 표현뿐만 아니라 정치인, 혐오 발언 등도 포함하여 사용자 입력 단계에서 민감한 이슈나 부적절한 이미지의 생성 가능성을 원천 방지하고 있습니다.

그림 4. 칼로가 부적절한 이용자 요구를 필터링하는 구조

부적절한 이미지 생성을 자동으로 탐지하는 기술은 중요하고 계속 개발되겠지만, 여전히 사람이 직접 서비스 전 과정을 모니터링하는 과정은 콘텐츠 검수를 위해 필요합니다. 칼로 서비스 모니터링 담당자들은 이용자의 요청과 AI에 의해 생성된 이미지 가운데 부적절한 콘텐츠가 발견될 경우 즉각적으로 조치를 합니다. 이를 위해 자동화된 시스템과 고객 대응 모니터링 팀이 협력하여 부적절한 결과가 노출되거나 악용되는 것을 최소화하고 있습니다.

그림 5. 칼로 모니터링팀이 이용하는 도구를 통해 감지된 유해 이미지(예시)

비가시성 워터마크 도입으로 딥페이크 대응

딥페이크 이미지에 의한 피해를 방지, 최소화하기 위해서는 딥페이크 생성을 감지하고 식별할 수 있는 기술이 필요합니다. 칼로를 이용해 생성된 이미지에는 비가시성 워터마크가 삽입됩니다. 해당 워터마크는 가시성 워터마크처럼 사용자가 생성한 이미지가 일부 변형/훼손되는 단점이 없고, 부분 편집을 하더라도 워터마크가 제거되거나 훼손되지 않는 장점이 있습니다. 특정 이미지가 칼로로 생성한 딥페이크인지를 확인하고 싶다면 전문가들은 SDK(Software Development Kit) API(Application Programming Interface)를 활용하면 되고, 일반 이용자는 워터마크 기술을 제공하는 스냅태그 홈페이지에 이미지를 업로드해서 확인할 수 있습니다.

그림 6. 딥페이크 방지를 위한 워터마크 생성 및 판독 과정

책임있는 AI 기술을 위한 노력

카카오브레인은 이미지 생성 모델, 서비스 등을 공개/출시하며 사용자들에게 AI의 뛰어난 효과와 혁신적인 경험을 제공하기 위해 노력해 왔습니다. 동시에 AI의 기술 발전으로 인한 사회적 논란과 부작용에 대한 심각성도 충분히 이해하고 있습니다. 카카오브레인은 카카오 공동체의 책임있는 AI를 위한 가이드라인의 원칙에 따라 AI 모델을 학습하고 있습니다. 또한 학습 데이터의 혐오, 차별, 정치적 편향 이슈를 해소하며 안정적인 성능을 낼 수 있도록 데이터 전, 후처리 작업을 진행하며, 지속적인 모니터링 관리와 저작권 문제, 부적절한 이미지 생성, 딥페이크 등의 리스크를 줄이기 위해 대처하는 노력도 병행하고 있습니다.

카카오브레인의 김일두 각자 대표의 메시지로 글을 마무리합니다. “갈수록 교묘해지고 진화하는 딥페이크 및 비윤리적 사용을 방지하기 위해서는 AI 기업의 기술적 노력과 함께, 기술의 오남용을 방지하기 위한 이용자의 관심, 정부의 관심이 모여 공동 협력 체계를 구축하는 시스템 구축이 무엇보다 중요해졌습니다. AI의 안전한 활용을 위해 이미지 생성 모델인 칼로에 비가시성 워터마크 도입하는 것을 비롯하여, 카카오브레인은 앞으로도 책임있는 AI를 만들기 위해 노력하겠습니다.”

#Karlo #딥페이크 #워터마크 #이미지생성 #카카오브레인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari