7. 이미지와 언어쌍의 관계성을 학습한 기초 모델

데이터중심 AI강좌: 데이터세트 구축 및 효율적인 데이터 학습 방법

by AI개발자

Mar 1. 2025

최근 주목받고 있는 분야 중 하나가 "VLM(Vision-Language Model)"이라고 불리는 이미지와 언어간의 관계성을 학습한 기초 모델입니다. VLM은 다음과 같은 장점을 가지고 있습니다.

언어를 활용한 이미지 분류: 언어정보를 이용해 이미지를 분류함으로써 단일 모델이 다양한 분류 태스크에 활용될 수 있습니다.

이미지를 상세한 언어서술로 변환: 이미지를 텍스트로 상세히 설명할 수 있습니다.

모델 결합: 언어와 이미지의 관계성을 학습한 모델을 다른 모델 학습에 결합하여 사용할 수 있습니다.

이번에는 VLM의 학습과정 및 데이터에 관한 설명합니다.

(1) CLIP

왼쪽: CLIP학습방법, 오른쪽: CLIP에 의한 이미지 식별 방법 (Radford 논문인용)

가장 유명한 VLM 중 하나는 OpenAI에서 발표한 CLIP모델일 것입니다. CLIP은 웹의 존재하는 약 4억개의 이미지와 텍스트 페어 데이터를 사용해 모델을 학습합니다. CLIP논문에서는 데이터 수집 방법에 대해 자세히 언급하지않지만, 이후 공개된 논문에 따르면 Common Crawl을 활용해 수집한 웹페이지 데이터에서 이미지와 대응하는 alt-text 태그의 텍스트를 추출하여 쌍(pair) 데이터로 구성하는 것으로 보입니다.

① CLIP 학습 방법

CLIP은 학습방법으로 자기지도학습 기법인 SimCLR과 유사하게 Contrastive Learning을 사용합니다. 단, SimCLR과 다른 점은 이미지간 매칭을 고려하는 대신, 이미지와 텍스트간 매칭을 고려한 Contrastive Learning을 수행한다는 점입니다. 위 그림에 나타난 바와 같이 이미지와 텍스트에서 각각 임베딩을 추출하기 위한 인코더를 학습합니다. (이를 각각 EI, ET라 칭함)

이미지 i와 텍스트 j에 대해, 임베딩의 코사인 유사도를 si,j라고 하면, SimCLR에서 계산한 Contrastive Learning과 거의 동일한 방식으로 손실을 계산할 수 있습니다.

이미지와 텍스트의 쌍(pair) 샘플수를 N이라할 때, 손실계산은 다음과 같이 진행됩니다.

lI→t(k)는 이미지 임베딩을 기준으로 N개의 텍스트 임베딩 중 해당 이미지와 페어인 텍스트 k의 임베딩과 매칭되는 정도를 계산하며, lT→I(k)는 반대로 텍스트 임베딩을 기준으로 이미지와의 매칭 정도를 계산합니다.

이와 같이 CLIP은 이미지와 텍스트간의 상호관계를 학습함으로써, 다양한 다운스트림 태스크에 효과적으로 활용될 수 있는 범용모델을 구축합니다.

② 언어를 활용한 이미지 분류

이처럼 쌍(pair) 데이터를 사용해 학습한 2개의 인코더는 다양한 태스크에 활용될 수 있는 것으로 알려져 있습니다. 그 대표적인 예가 이미지 분류입니다. 위 그림 오른쪽에 나타난 것처럼, 클래스명 목록과 두 인코더를 사용하여 이미지 분류를 수행할 수 있습니다.

클래스명이 주어지면, 프롬프트(prompt)라고 불리는 템플릿 문장과 클래스명을 결합하여 해당 클래스에 해당하는 문장을 생성하고, 모든 클래스명에 대응하는 텍스트 임베딩을 획득합니다. 그리고 그 임베딩과 이미지 임베딩간의 유사도를 측정함으로써, 이미지가 어느 클래스에 해당하는지를 판별합니다.

일반적으로 이미지 분류를 수행할 때는 별도의 분류기를 학습시켜야 하지만, 클래스명을 언어로 취급함으로써 학습에 사용되는 않은 데이터에 대해서도 분류기를 구축할 수 있다는 점은 기존 분류 방법에 대한 큰 장점 중 하나입니다. 이러한 분류방식을 제로샷(Zero-shot) 분류하고 부릅니다.

또한, CLIP을 이용한 제로샷 분류는 ImageNet등과 같은 분류 태스크에ㅔ서 매우 높은 정확도를 보이는 것으로 알려져 있습니다. CLIP학습은 여러 서드파티에 의해 재현되었으며, ImageNet에 대해 80%이상의 예측정확도를 보고하고 있습니다.

③ CLIP은 견고한 분류기이다!

아래 그림은 ImageNet과 동일한 클래스의 이미지를 다양한 도메인에서 수집하여 구성한 데이터세트에 대해 정확도 비교결과를 보여줍니다.

ImageNet을 이용해 학습한 모델은 ImageNet 이외의 데이터세트에서는 매우 낮은 정확도를 보이는 반면,

CLIP은 높은 정확도를 나타냅니다.

이런 차이가 발생하는 이유가 무엇일까요?

CLIP 프레임워크와 일반적인 이미지 인식 모델간의 차이점으로는,

사용되는 이미지 데이터 분포가 매우 다양하다는 점

자연어로 기술된 설명을 이미지 데이터로 대한 지도 정보로 활용한 Contrastive Learning방식을 사용한다는 점이 있습니다.

CLIP에 의한 식별결과의 예시, ImageNet에 포함된 클래스에 대한 평기 실시 (Radford 논문 인용)

이에 대해 Fang논문등에서는 CLIP을 견고한 분류기로 만드는 요인에 대해 분석하였습니다. 구체적으로는 클래스 정보가 아니라 자연어를 지도정보로 사용하는 것이 견고함에 기여하는지 여부를 검증하였습니다. 그 결과, 자연어 사용 자체가 모델을 견고하게 만드는 주요 원인은 아니며, 이미지 데이터 분포의 다양성이 큰 요인임을 결론지었습니다. 또한, CLIP모델의 성능은 데이터세트에 크게 의존하는 것으로 나타납니다. 예를 들어,

ImageNet과 같은 데이터세트에 대해서는 제로샷(Zero-Shot)에서도 높은 정확도를 보이지만,

EuroSAT와 같은 위성 이미지나 CIFAR-10과 같이 해상도가 낮은 이미지에 대해서는 성능이 높지 않았습니다. 이는 ImageNet이 웹에서 수집된 이미지인 반면, EuroSAT나 CIFAR-10의 이미지는 웹상에 많이 존재하지 않아, CLIP의 학습데이터에서 충분한 지식을 획득하기 어려웠기 때문으로 해석할 수 있습니다.

그러나, 이러한 데이터세트에 대해서도 CLIP 모델을 파인튜닝하면 높은 정확도를 달성할 수 있으므로, CLIP이 기존의 사전학습모델에 비해 열등하다고 볼 수 없습니다.

④ 웹기반 VL데이터 구축 프로세스

LAION-5B에서 데이터 필터링 프로세스 (Schuhmann 논문 인용)

OpenAI가 처음 공개한 CLIP모델 학습에 사용된 데이터에 대한 상세정보는 명확하지 않지만 공개데이터로 릴리즈된 LAION 데이터세트에는 필터링을 거친 버전들이 여러개 공개되어 있습니다. 아래 그림은 LAION-5B에 사용된 데이터세트 구축 프로세스를 나타냅니다.

1. HTML 파싱: Common Crawl에 있는 HTML문서에서 IMG태그를 파싱하여, alt-text태그 내의 텍스트 데이터와 이미지URL을 추출합ㅂ니다.

2. 언어 판단: CLD3을 사용하여 추출된 텍스트가 영어인지 다른 언어인지를 판단합니다. 이는 텍스트가 영어인지 여부를 명확히 하여, 이후 처리나 데이터 공개시 활용하기 위함입니다.

3. 이미지 다운로드: 이미지URL로부터 이미지를 다운로드합니다.

4. 필터링: 문자수와 극단적으로 적은 텍스트, 파일 크기가 작은 이미지, 그리고 부적절한 콘텐츠를 포함한 이미지를 필터링합니다. 마지막으로 학습된 CLIP모델을 사용하여 이미지와 텍스트의 유사도를 측정하고 유사도가 임계값에 미치지 못하는 경우 해당 데이터를 필터링합니다. 이 과정을 통해 전체 이미지-텍스트 페어 중 약 90%가 제거됩니다.

Schuhmann논문에서는 이와 같은 프로세스로 구축된 데이터세트를 이용해 모델을 학습시킨 결과, OpenAI가 공개한 CLIP모델과 동일한 정확도를 달성할 수 있었다고 보고하고 있습니다.

⑤ VL 데이터세트의 질과 양

앞에서는 자기지도학습에 사용되는 이미지 데이터의 질과 양에 대해 논의했습니다. 그렇다면 CLIP과 같은 VLM(Vision-Language Model)에 대해서도 '데이터양을 늘리면 정확도가 향상된다'라는 법칙이 적용될까요?

VLM 학습에서는 텍스트를 이미지의 지도정보(teacher signal)로 활용하기 때문에, 자기지도 학습보다는 지도학습에 더 가까운 성격을 띱니다. 일반적으로 데이터양을 늘릴 때는 데이터의 질도 신경써야 합니다. 여기서 데이터의 질은 주로 다음 2가지 측면에 대해 논의합니다.

1. 이미지 데이터와 페어링된 텍스트 데이터가 이미지를 올바르게 기술하고 있는가?

Common Crawl과 같은 웹데이터를 활용해 대량으로 수집한 이미지와 텍스트 페어 중에는 이미지 내용을 제대로 기술하지 못한 텍스트가 많습니다. 따라서 앞서 설명한 LAION-5B의 데이터수집 프로세스에서는 학습된 CLIP모델을 사용하여 이미지와 텍스트 간의 유사도를 측정하고, 이를 기준으로 페어 데이터를 필터링합니다.

2. 이미지 데이터 또는 텍스트 데이터의 다양성

설사 텍스트 데이터가 이미지를 올바르게 기술한다고 하더라도, 이미지가 특정 도메인만을 포괄한다면 다양한 태스크나 데이터세트에 대해 높은 정확도를 기대하기 어렵습니다. 또한, 다양한 어휘에 대한 일반화 성능을 고려할 때, 텍스트 데이터의 다양성 역시 매우 중요합니다.

⑥ 설명문을 기반으로 한 필터링

Radenovic 논문에서는 데이터 필터링을 위해 다음 3가지 기준을 사용했습니다.

설명문의 복잡성: 일정 수준 이상의 복합한 장면을 서술하는 텍스트가 학습에 효과적이라는 동기를 바탕으로 객체간 관계를 고려하는지 여부를 텍스트 파서를 사용해 판단합니다.

액션(동작)의 유무: 동작에 관한 서술이 포함되어 있는지를 파서를 통해 판단하여 데이터를 필터링합니다.

텍스트 이미지의 유무: OCR태스크와 같은 다운스트림 태스크가 아닌, 물체 인식에 집중하기 위해 텍스트가 단순히 이미지에 표시되어 있는 경우의 이미지를 제공합니다.

이러한 기준을 적용하여 LAION-5B 데이터세트 중 영어 데이터 약 20억(2B)쌍을 사용했습니다. 아래 그림은 필터링 효과를 나타내며, ImageNet(IN), 이미지 설명문 데이터세트 COCO 및 Flickr에서의 이미지 및 텍스트 검색(또는 리트리벌) 태스크를 평가에 사용했습니다. 이 표로부터 2가지 사실을 추론할 수 있습니다.

데이터 필터링 결과와 모델의 정확도 비교

CLIP의 유사도를 사용한 데이터 필터링이 반드시 정확도 향상으로 이어지지는 않는다 2열에서는 CLIP을 사용하여 이미지-텍스트 쌍의 유사도를 측정하고, 점수가 낮은 샘플을 필터링했습니다. 그러나, 이 필터링은 3개의 데이터세트 모두에서 원본 데이터와 비교해 정확도를 오히려 저하시켰습니다. 이는 CLIP이 낮은 유사도를 나타낸 쌍의 텍스트가 반드시 이미지 내용을 올바르게 기술하지 못하는 것은 아니며, 유사도가 낮은 샘플을 제거하는 것이 학습하기 쉬운 샘플만 남겨두어 학습의 다양성을 제한할 가능성이 있기 때문입니다.

데이터의 양이 반드시 중요한 것은 아니다 다운스트림 태스크의 특성에 맞춘 데이터를 준비하는 것이 정확도 향상에 더 큰 영향을 미친다는 것을 1열과 3-5열의 비교를 통해 이해할 수 있습니다. 이 논문에서 수행한 필터링은 설명문의 복잡ㅂ성이나 텍스트 이미지 유무를 고려하기 때문에, COCO나 Flickr데이터세트의 설명문과 유사한 데이터를 중점적으로 학습하게 될 것으로 보입니다. 논문에서는 문자 데이터 자체에 대한 평가를 진행하지 않았으므로 추측에 불과하지만, 텍스트 이미지가 제거됨에 따라, 해당 데이터에 대한 정확도는 떨어질 수 있다고 생각합니다.

⑦ 대표적인 데이터만 선택하는 필터링

Abbas 논문등에서는 LAION과 같은 대규모 데이터세트 내에 의미적으로 동일한 데이터가 많이 포함되어 있어, 이들을 모두 사용해 학습하는 것은 비효율적일 것이라는 가설을 제시했습니다. 그리고 학습데이터 중 일부를 선별해 전체의 약 50%만 사용하더라도 정확도 저하를 크게 억제할 수 있음을 보여줍니다.

왼쪽 가장자리 이미지에 대해 제거될 수 있는 이미지의 예시 (Abbas논문인용)

이는 앞서 텍스트 데이터의 질을 고려해 데이터를 선별하는 방법과 달리, 데이터의 다양성에 기반해 데이터양을 줄이는 방법의 결과가 매우 흥미롭다는 점을 시사합니다. 또한, 데이터 선별의 기저 아이디어는 나중에 소개하는 '능동학습(active learning)'에서 다양성을 기반으로 데이터를 선택하는 방식과 유사합니다. 위 그림은 왼쪽에 있는 이미지에 대해 제거대상이 될 수 있는 이미지들의 예시를 보여줍니다. 각 경우에 대한 설명은 다음과 같습니다.

1. Perceptual duplicate (지각적 중복):

사람이 보았았을 때 거의 동일하게 보이는 이미지

픽셀 수준에서도 거의 동일하다고 판단할 수 있는 이미지이며, LAION-5B와 같은 필터링 과정에서도 제거

2. Semantic duplicate (의미적 중복):

외관은 매우 유사하지만, 일부 차이가 존재하는 이미지

예를 들어, 같은 물체를 다른 시각에서 촬영한 이미지등이 해당됨

3. Semantically redundant data (의미적으로 중복된 데이터):

외관은 크게 다르지만, 포함된 정보(예; 물체의 카테고리)가 동일하여 의미적으로 거의 동일한 이미지

예를 들어, 서로 다른 공원에서 산책하는 2개의 별도의 진도개 이미지처럼, 이미지로서는 다르지만 의미적으로는 거의 동일한 경우가 해당

이러한 중복(duplicate)데이터를 제거하기 위해 CLIP을 활용해 이미지 간 유사도를 계산하고 의미가 극도로 유사한 데이터를 제거하는 과정을 거칩니다. 구체적인 프로세스는 논문을 참고하시기 바랍니다.

아래 그림에 따르면 전체 데이터의 약 50%정도를 제거한 경우에도 정확도 하락이 크지 않으며, 오히려 70% 정도 제거한 경우에는 전체 데이터를 사용할 때보다 정확도가 상승하는 결과도 나타납니다. 또한, 논문에서는 데이터 수를 줄였을 때 학습속도가 빨라지고 계산효율성이 개선됨도 보고하고 있습니다. 이처럼 대량의 데이터를 수집할 수 있는 경우, 데이터의 다양성을 고려한 학습데이터 선별을 통해 효율적으로 높은 정확도의 모델을 달성할 수 있다고 볼 수 있습니다.

Abbas 데이터 선택결과. 둘다 점선 결과가 모든 데이터를 사용하여 학습한 결과 왼쪽: ImageNet의 zero-shot식별에 대한 정밀도, 오른쪽: 24의 zero-shot식

(2) BLIP

CLIP은 텍스트를 이용해 이미지 데이터를 분류하거나 검색하는데 사용되는 모델인 반면, 여기서 소개하는 BLIP은 이미지로부터 자연어를 생성하는 모델입니다. CLIP의 경우, 특정 텍스트 데이터 후보에 대해 이미지를 검색함으로써 이미지에 텍스트를 부여할 수 있지만, BLIP은 텍스트 생성 모델을 활용하여 오직 이미지와 모델만으로 이미지에 해당하는 텍스트를 생성할 수 있습니다.

BLIP이 주목하는 점은 웹에서 수집한 이미지와 설명문 페어를 어떻게 이미지 설명문 생성모델 학습에 효과적으로 활용할 것인가에 있습니다. CLIP의 학습에서도 웹에서 대량으로 수집한 설명문의 노이즈 문제에 대해 언급했지만, 설명문을 생성할 때도 데이터의 질을 향상시킬 필요가 있습니다. BLIP은 사람이 어노테이션한 이미지 설명문 데이터세트ㅡ과 웹에서 수집한 이미지 설명문 데이터를 적절히 결합하여 데이터세트를 구성합니다.

BLIP모델 학습은 ALBLEF에 기반하며, 이번에는 설명문 생성 모듈에 대해 자세히 다루지는 않습니다. 기본적으로 BLIP은 (i)이미지 인코더를 통해 이미지 특징량을 추출하고 (ii)이 특징량을 바탕으로 언어 디코더를 이용해 텍스트를 생성하는 방식으로 작동합니다. 언어 생성 모델에 관한 자세한 내용은 이전에 설명했던 내용을 참고하기 바랍니다. 여기서는 학습 데이터 구성 방식에 주목하여 BLIP를 살펴봅시다.

① 학습데이터 구성방법

아래 그림은 학습데이터 생성 파이프라인을 나타냅니다. 이 파이프라인에서는 웹에서 수집된 이미지-설명문 쌍 중에서 이미지와의 일치도가 높은 설명문을 선별하고, 웹이미지를 대상으로 일치도가 높은 설명문을 새로 생성하여 새로운 쌍 데이터를 만드는 것을 목표로 합니다. 구체적인 절차는 다음과 같습니다.

BLIP 학습데이터 작성 파아피라인 개요

1. 사전학습(Pre-training)

사람이 만든 이미지 설명문 데이터세트와 웹에서 크롤링한 이미지 설명문 데이터세트를 사용해서 설명문 생성모델, 이미지와 설명문의 쌍에 대해 2요소가 얼마나 잘 매칭되는지 출력되는 모델을 학습합니다.

2. 설명문 부여(Annotation)

1번에서 학습한 생성모델을 이용해, 웹이미지에 대해 설명문을 생성합니다.

3. 데이터 필터링

2번에서 생성된 이미지-설명문 데이터와 웹에서 수집한 이미지-설명문 데이터 각각에 대해, 1번에서 학습한 매칭도 출력모델을 사용하여, 매칭도가 높다고 판단된 쌍만 선별합니다. 그 후, 사람이 어노테이션한 데이터세트와 같이 최종 학습 데이터로 구성합니다.

이 과정을 통해, 다양한 설명문을 확보함과 동시에 어느 정도 정확한 서술을 담고 있는 설명문만을 선별하는 파이프라인을 구축할 수 있습니다.

② 데이터 생성 프로세스의 효과

아래 표는 위에서 언급한 데이터 생성 프로세스를 평가한 결과입니다. 사람에 의해 어노테이션된 설명문 데이터세트와 웹에서 수집한 설명문 데이터세트를 합쳐 총 약 1400만(14M)건을 사용했으며, 평가에는 COCO를 활용하되, 모델을 COCO에 대해 파인튜닝했습니다.

표의 1행은 사전학습(Pre-training)만 수행한 결과이며, 이를 베이스라인으로 삼습니다.

결과를 보면, 학습된 모델을 이용해 설명문을 부여하는 과정과 설명문을 필터링하는 과정 각각이 모델이 정확도를 향상시키며, 이 두 과정을 결합했을 때 정확도가 더욱 높아짐을 알 수 있습니다.

<BLIP의 모델기반 설명부여 및 쌍데이터 필터링 효과>

(3) 데이터중심 VL 데이터평가 및 데이터 안정성

지금까지 우르는 대량의 텍스트와 이미지 데이털르 통해 학습한 CLIP과 같은 VLM이 다양한 태스크에서 높은 정확도를 보인다는 점과 데이터를 모델 기반으로 확장하거나 필터링하는 것의 중요성에 대해 논의했습니다. 그러나, 이러한 시도들에서는 한가지 문제가 제기됩니다. 즉, 학습에 사용되는 모델구조, 학습시의 하이퍼파라미터, 평가태스크에 따라 모델의 동작이 달라질 수 있다는 점입니다. 어떤 데이터가 좋은지에 관한 논의는 논문마다 얻어지는 결과가 다를 가능성이 있습니다.

또한, 대량의 데이터를 수집하여 학습을 진행할 때 가장 문제되는 부분 중 하나는 데이터의 안전성입니다. 대량의 데이터를 수집하면, 그 데이터들 중에는 공격적인 콘텐츠나 개인정보를 침해하는 콘텐츠가 포함될 가능성이 있습니다. 수집된 대량의 데이터를 하나하나 사람이 직접 확인하는 것은 매우 어렵기 때문에 이에 대한 적절한 대책이 필요합니다.

DATACOMP 컴페티션에서는 '어떤 데이터를 준비하면 가장 높은 정확도의 CLIP모델을 학습할 수 있는가?'라는 데이터중심 관점에서 데이터 평가를 수행하고, 데이터 안정성을 고려한 데이터 수집방법에 대해서도 언급하고 있습니다. 이에 대한 구체적인 시도들을 소개하고자 합니다.

① 학습에 최적의 데이터 선택 평가 파이프라인

이 시도에서는 모델의 구조, 학습시 하이퍼파라미터, 계산량등을 고정한 상태에서 최적의 학습데이털르 선택하는 전략을 모색합니다.

1. 스케일 선택

아래 표에서 제시된 것처럼 허용가능한 계산량에 따라 4ㄱ단계 스케일을 준비함

모델 크기에 따라 데이터 크기등을 조정하여 스케일링 법칙을 고려한 설정을 구성함

2. 데이터 선택

DATACOMP에서 구성된 CommonPool(또는 참여자 자신이 준비한 데이터)에서 데이터를 선택함

3. 모델 학습

고정된 모델구조와 학습 하이퍼파라미터를 기반으로 선택된 데이터를 사용하여 모델을 학습시킴

4. 모델 평가

학습된 모델을 39개의 zero-shot 태스크에 대해 평가함

이와 같은 파이프라인을 구성함으로써 데이터 외에 모델 정확도에 영향을 미치는 요소들을 배제하고 통일된 조건에서 학습된 모델을 평가할 수 있습니다.

DATACOMP의 평가 프레임워크 (Gadre논문 인용)

DATACOMP의 실험설정 (4단계 스카일 준비해서 사용가능한 모델크기나 학습에 사용하는 계산량등 설정함)

② 안전성을 고려한 데이터수집

DATACOMP에서 제공하는 데이터세트(CommandPool)을 구성할 때, 안전성을 고려한 데이터 수집 프로세스를 적용하고 있습니다. 사용에 안전하지 않은 콘텐츠는 NSFW(Not Safe For Work)라고 하며, 이러한 콘텐츠를 최대한 배제하는 데이터 수집은 일반적인 데이터 수집에서도 매우 중요합니다. 구체적인 전처리 과정은 다음과 같습니다.

1. 라이선스 고려

CC-BY-4.0 라이선스가 부여된 이미지와 텍스트만 수집 대상으로 함

웹상의 콘텐츠에는 제3자의 사용에 제약이 명시된 라이선스가 부여되어 있을 수 있음

CC-BY-4.0은 제3자가 콘텐츠를 자유롭게 활용하고, 가공후 미디어에 공개하는 것을 상업적 용도에서도 허용함

일부 라이선스는 가공을 전혀 허용하지 않거나 상업적 이용을 금지하기도 함

2. 모델 기반 필터링

텍스트 데이터에 포함된 공격적, 성적인 콘텐츠를 제거하기 위해 Detoxify를 사용하여 필터링함

이미지 데이터에 포함된 안전하지 않은 콘텐츠를 제거하기 위해, LAION-5B에 포함된 NSFW데이터를 활용하여 이미지 분류기를 학습시키고, 이를 통해 필터링하는 분류기를 구축함

3. 얼굴검출에 의한 얼굴블러 처리

라이선스상 문제는 없더라도, 프라이버시 보호측면에서 사람의 얼굴이 포함된 이미지를 그대로 사용하는 것은 바람직하지 않음

얼굴검출기를 사용하여 이미지내 얼굴을 검출한 후, 블러처리하는 작업을 수행함

얼굴을 블러처리하면 모델의 정확도가 소폭저하될 수 있으나, 실제로는 매우 미미한 정도라는 보고가 있음

③ LAION을 둘러싼 문제

LAION은 웹페이지에서 프라이버시 보호관점에 대해 언급하고 있습니다. 거기서 이미지나 URL에 개인의 사진이 포함되어 있고 본인으로부터 삭제요청이 있을 경우, 이를 삭제해주는 정책을 세운 것으로 보입니다. 그러나, 자신이 웹에 업로드한 이미지가 LAION데이터세트에 포함되어 있을 때, LAION측이 해당 삭제 요청에 반드시 응해줄지는 확실하지 않습니다.

보고된 사례에서는 한 사진가가 자신의 포트폴리오에 올려둔 이미지가 LAION에 포함된 사실을 발견하고 LAION에 이의를 제기했지만, 정당한 저작권 관련 이의가 아니라는 이유로 LAION이 거꾸로 979달러를 청구했다고 합니다. 이 사진가의 주장이 정말 정당했는지 여부를 판단하기는 어렵지만, 공개된 데이터가 이미지 생성형 AI등에 활용될 가능성을 고려하면, 예술가들에게는 생존이 걸린 문제일수도 있습니다.

또한, 스탠포드 대학에서 발표된 보고서에 따르면, LAION-5B데이터세트에는 아동성적학대(Child Sexual Abuse)와 관련된 것으로 추정되는 콘텐츠가 3226장 포함되어 있다고 합니다. LAION-5B를 구성할 때 공격적이거나 성적인 콘텐츠를 제거하는 프로세스가 포함되어 있었을 것으로 추정되지만, 모델 기반의 제거 프로세스에는 한계가 있어 모든 부적절한 이미지를 완벽히 제거하지는 못한 것으로 보입니다. 앞서 언급한 DATACOMP에서도 여러 단계의 부적절한 콘텐츠 제거 프로세스를 적용하고 있지만, 대량의 데이터에서 NSFW콘텐츠를 완벽히 배제하는 것은 쉽지 않을 것입니다.