챗GPT를 쓰면서 놓치는 무서운 딴지.. 저작권

by 백기락

1년 여 동안 #챗GPT 를 쓰면서 ... 여타의 강사님들이나 작가님들과 달리 저는 작업 속도가 최소 50% 정도 늦어졌습니다. ^^; 그런데도 왜 쓰냐구요? 그건... 노하우라 비밀입니다. ㅎㅎ 암튼 써야할 이유가 있긴 합니다만, 오히려 시간이 느려진 건 사실입니다. 요즘 이 부분 때문에 머리를 싸매며 대안을 찾고 있긴 하죠. 그리고 시간이 느려진 대표적인 이유 중 하나가 바로 #저작권 을 회피하기 위해서입니다.

나름 챗GPT 로 대표되는 #생성형AI 를 꽤 써봤습니다. 강좌도 여러 번 들었구요. 보면서 ... 죄송하지만, 이런 생각을 한 게 대부분이었습니다. '저런 식으로는... 나는 못 쓰겠는데?' ... 매년 200편 정도의 원고를 작성하고, 촬영을 하면서 항~상 조심하는 게 있습니다. 바로 저작권 문제입니다. 솔직히, 저도 완벽하게 저작권을 꿰고 있는 건 아니고, 판례를 다 본건 아니어서 100% 피했다고 말하긴 힘듭니다. 나름 #세무사 #회계사 의 자문을 받고 세금을 내도 #국세청 으로부터 세금 추징을 당하는 그런 상황은 언제나 생길 수 있으리라 생각합니다. 다만, 의도적인 게 아니라 회피의 노력이 얼마나 보이는가, 의 부분에서는 그래도 정상 참작은 되지 않을까, 싶지요.

생성형 AI는 여러 종류로 나뉘어지지만, 결과물의 형태만 놓고 본다면, #텍스트 생성, #이미지 생성,#오디오 생성, #영상 생성 등으로 나뉘지 않을까 합니다. 여기서 영상은 이미지와 영상의 결합물이기 때문에 텍스트, 이미지, 오디오 정도가 아닐까 싶네요. 이 중에서 저작권에 가장 취약한 게 뭘까... 라고 한다면, 현재로선 텍스트보다는 이미지나 오디오라고 생각합니다. 아무래도 #학습데이터 가 한정적이고 - 다르게 표현하면 용량 대비 갯수가 적은 - 최근에 만들어진 것들이 많아서 그러리라 봅니다. 하지만, 좀 다른 관점, 저작권 침해 여부를 가장 빨리, 확실하게 찾아낼 수 있는 측면에서 본다면, 단연코 텍스트가 가장 쉽지 않을까, 싶습니다. 실제로 텍스트에 대한 저작권 침해 여부를 체크하는 도구는 꽤 나와 있거든요.

생성형 AI는 말 그대로 원 데이터를 참고해서 새로운 데이터를 생성합니다. 당연히 텍스트를 학습하면 텍스트를 생성하게 되죠. 여기서 텍스트의 품질을 놓고 고민할 때, 과연 데이터가 중요한가, 학습 모델이 중요한가, 에서 아직까지는 '그래도 데이터가 중요하지' 라고 얘기할 것 같습니다. 최근 #인공지능 분야에서 양질의 데이터, #데이터품질 에 대한 이야기가 많이 나옵니다. 아무리 #AI 가 발전해도 양질의 데이터를 넘어서는 모델은 구현하기 힘들다는게 대부분의 전문가들의 의견이지요. 그 말은, #할루시네이션 을 막거나, 인공지능이 #편향 되지 않도록 하려면 학습 모델로는 힘들고, 애당초 데이터 차원에서 이를 구현해야 한다는 것이고, 이런 문제 때문에 사실상 생성형 AI가 공정하기 힘들다는 의견도 많지요.

자, 데이터셋을 잘 만들면 생성형 AI의 결과물이 좋다... 그렇다면 이렇게 볼 수도 있지 않을까요? 생성형 AI의 품질이 좋다, 는 건 다르게 보면 애당초 데이터셋이 좋다, 는 뜻이 됩니다. 그런 점에서 #OpenAI 의 #ChatGPT 가 저작권에 가장 취약하다, 가장 침해가 심하다, 는 건 당연한 사실이 아닐까 합니다. 단언컨대 #오픈AI 가 학습 데이터를 준비하는 과정에서 저작권 침해를 고려해서 데이터셋을 준비하지 않았을 것입니다. 그럴 여지도, 그럴 필요도 없는 상황이었을거에요. 돈 벌 생각도 없었고, 열심히 연구 중이었거든요. 그런데 지금은 제 카드에서도 꼬박꼬박 돈을 뽑아가고 있습니다. 뭐, 제가 보기에는 서버 유지에도 빠듯할 것 같은 돈이지만, 법이 또 안 그렇거든요. 돈을 받는 순간 유료는 유료인 셈이니까요. 그런 점에서, 돈을 제대로 벌지 못하는 오픈AI가 왜 저렇게 열심히 #투자 를 받으려고 할까, 를 생각해보면... 상당한 금액은 다음과 같이 쓸 겁니다. 1.#MS #Azure 의존도 탈피 2. 저작권 침해에서 피할 수 있는 데이터셋 확보 3. 저작권을 피할 수 있는 사용 계약...

이제 제 비밀을 하나 밝혀 드리겠습니다. 저는 강연 원고를 작성할 때 생성형AI를 사용하면서 크게 3가지를 봅니다. 1. 내가 알고 있지 않은 새로운 내용이 있는가 2. 이 내용이 정확한가 3. 저작권을 침해하지 않는가 2번과 3번 때문에 시간이 아주 많이 들어갑니다. 여기에 몇 가지 기준을 더 붙이면 품질이 좋은 원고가 탄생합니다. 그래서... 시간이 더 ~ 많이 들어갑니다.

그래도 3년 가까이 제게 원고를 의뢰하고, 강연을 의뢰하는 분들이 많아진다는 점은 고무적입니다. 시간이 늘어난(?) 덕분에 베끼지 않은 원고, 품질 좋은 강연이 탄생했다는 반증 정도가 아닐까 합니다. 그래도 늘 조심스럽습니다. 제가 새로운 인공지능을 연구하는 사람이 아니다 보니, 자칫 누군가의 저작물을 침해하진 않을까, 하는 걱정을 합니다. 완벽할 수는 없겠지만, 조금만 더 편해지려고 마음 먹는 순간, 누군가의 신고로 제 강연과 원고가 내려지고, 저는 그 모든 피해를 보상하게 될테니까요.

그래서 이렇게 말씀드려 봅니다.

챗GPT, 쓰셔도 됩니다. 다만, 저작권은 공부하면서 쓰시면 좋습니다.

#Gemini , 쓰셔도 됩니다. 다만, 정확한지, 누군가의 글을 그대로 옮긴 건 아닌지 생각하면 좋겠습니다.

여러분의 결과물이,

상업적으로 의미있는 결과물이 되길 진심으로 소망합니다.

#PaiP #WAIT Designer

#백기락 Dream


* 생성형 AI를 쓰면서 저작건을 어떻게 고민하고, 피해가면 좋을지 궁금하시다면, 제가 특강을 해드릴 수 있습니다. 하지만, 이미 생성형 AI를 사용해 많은 결과물을 만드셨다면, #변리사 #변호사 의 조언을 받으시는 게 좋습니다.

http://band.us/@4aibig

keyword
작가의 이전글프롬프트 엔지니어링에 대한 생각