빅데이터 시대에 꼭 알아야 하죠
본 글은 생능출판사에서 출간될 빅데이터 관련 서적에 삽입될 글 일부입니다.
(1) 법리 분석
데이터셋은 누군가가 시간과 돈, 그리고 막대한 노력을 기울여 제작한 자료입니다. 데이터셋에 포함시킬 자료들을 선별하는 과정에서 제작자의 노력과 창의성이 포함되었고, 학습을 위한 레이블의 경우 그 자체로 창작물이므로 데이터셋 역시 저작권의 보호 대상입니다.
따라서 데이터셋을 무분별하게 활용하는 경우 저작권의 위반으로 민형사상의 책임이 발생할 수 있으며, 연구윤리의 위반행위이므로 많은 사람들로부터 지탄받을 수 있습니다. 따라서 연구자는 데이터셋의 사용과 관련된 저작권의 법리를 이해하고, 정당한 방식으로 데이터셋을 인용하며 연구에 활용해야 합니다.
이에 데이터셋을 활용하려는 연구자가 반드시 알아야 하는 법률 정보를 간략하게 안내하겠습니다.
① 저작권의 기초 개념
저작권은 저작권법을 근거로 발생하는 권리이며, 인간의 사상이나 감정을 표현한 창작물은 저작권의 보호 대상이 됩니다. 이때 사상에는 아름다움을 느낄 수 있는 예술적 표현뿐 아니라 기술적 사상도 포함될 수 있습니다. 이를테면 논문이나 특허명세서 등도 저작권으로 보호받을 수 있는 저작물입니다. 저작권은 저작물이 탄생하는 순간 자연적으로 발생하는 권리입니다.
데이터셋이 가질 수 있는 저작권의 권리는 저작인격권과 저작재산권입니다.
② 저작인격권
저작인격권은 저작물을 제작한 창작자의 인격을 보호하기 위한 권리입니다. 쉽게 설명하면, 저작권자가 누구인지를 밝혀야 한다는 뜻입니다. 남의 작품을 내 작품인 것처럼 표절하지 않아야 한다는 뜻으로 이해하시면 정확합니다.
데이터셋을 가져와 사용하는 연구자는 데이터셋의 제작자가 누구인지를 명확하게 밝히며 인용하는 것으로 저작인격권의 제한을 피해갈 수 있습니다.
이 책에서 소개되는 모든 데이터셋은 저자가 직접 요청한 방식 또는 일반적인 연구논문에서 차용하는 방식으로 데이터셋을 인용하는 citation 문구를 제공하고 있습니다. 책에서 소개된 문구를 그대로 인용하는 것으로 저작인격권의 문제는 해소됩니다.
③ 저작재산권 - 비영리 연구목적 활용의 경우
저작재산권은 쉽게 말해 “저작물을 팔아서 돈을 벌 수 있는 권리” 입니다. 연구자들 사이에서 저작재산권에 대한 인식이 부족한 면이 있습니다.
저작권법 제28조(공표된 저작물의 인용)
공표된 저작물은 보도ㆍ비평ㆍ교육ㆍ연구 등을 위하여는 정당한 범위 안에서 공정한 관행에 합치되게 이를 인용할 수 있다.
일반적으로 연구 결과물을 전 세계에 발표하는 것이 목적인 논문에서 데이터셋을 인용하는 행위는 비영리적 연구활동으로 분류되며, 저작권법 제28조에 의하여 저작재산권이 면제됩니다. 즉, 데이터셋을 인용하며 논문을 발표하는 행위는 저작권법상 문제가 되지 않는 경우가 많습니다.
하지만 항상 논문발표가 안전하다는 뜻은 아닙니다. 저작권법 제28조의 후문을 살펴보시면 “정당한 범위”와 “공정한 관행”이라는 문구가 등장합니다. 데이터셋의 제작자가 사용을 허락하지 않은 경우에는 데이터셋의 사용이 불법지이라는 뜻입니다.
정부 예산으로 구축되고 있는 대규모 데이터 포털인 AI Hub의 데이터셋을 예시로 들어 보겠습니다. 2021년 현재 AI Hub(https://aihub.or.kr)의 라이센스에는 아래와 같은 문구가 삽입되어 있습니다.
2. 국외에 소재하는 법인, 단체 또는 개인이 AI 데이터 등을 이용하기 위해서는 수행기관 등 및 한국지능정보사회진흥원과 별도로 합의가 필요합니다.
위 문구에 따라 외국인이나 국외 체류중인 한국인은 한국지능정보사회진흥원과의 합의 없이 데이터셋을 사용하는 것이 제한됩니다. 이를 무시하고 데이터셋을 사용할 경우, “정당한 범위”나 “공정한 관행”에 해당하지 않으므로 저작권법 제28조가 적용되지 않아 저작재산권이 유지됩니다.
이 경우 논문에 정확한 인용을 기재하며 데이터셋을 사용하였다 하더라도 저작재산권 위반이므로 형사처벌도 가능하며, 민사배상 책임도 발생하는 것입니다.
따라서 논문에 데이터셋을 활용하는 경우에도 데이터셋의 라이센스를 면밀하게 확인해 보고, 저자들이 사용을 허가한 경우에만 데이터셋을 인용하는 것이 중요합니다. 현실적으로 해외 소재 데이터 제작자들로부터 국제소송을 당할 가능성은 희박하겠지만, 연구윤리상 불법적으로 데이터를 수집하는 것은 바람직하지 못하므로 이에 따른 주의가 필요합니다.
이 책에서 소개되는 데이터셋은 모두 비영리 연구목적 활용이 자유롭게 허가된 데이터셋입니다.
④ 저작재산권 - 영리목적 활용의 경우
영리목적 활용의 경우에는 저작재산권이 더욱 엄격하게 적용됩니다. 데이터셋의 제작자가 직접적으로 상업적 사용을 허가한 경우가 아니라면 영리목적 활용은 불가능합니다. 이 책에서 소개되는 데이터셋 중에서 영리적 사용이 가능한 건들은 라이센스명을 붉은 색 글자로 표시해 두었습니다.
(2) 데이터셋의 저작권 침해가 가능하긴 한가요?
일반적으로 저작권 침해라면 음악이나 소설을 표절하는 행위를 떠올릴 것입니다. 저작물의 내용을 동일하거나 비슷하게 흉내내는 행위를 의미하지요. 그런데, AI의 학습에 데이터를 사용하는 행위가 표절과 유사한가요?
AI의 학습 결과물은 모델 속에 녹아있는 단순한 텐서입니다. 이 텐서로부터 원본 데이터를 복원해 내는 과정은 매우 어려운 일입니다. 생성적 모델의 경우에도, 모델의 웨이트로부터 학습에 사용한 빅데이터를 원본 그대로 추출해 내는 것은 불가능하지요.
그렇다면 딥러닝 모델에 빅데이터를 집어넣는 행위는, 혹시 저작권법 위반이 아닌 것은 아닐까요? 작가는 이 부분에 커다란 의문을 느꼈습니다. 아직까지 대한민국 저작권법에는 이 부분에 구멍이 있으며, 관련 판례도 없어 법원의 스탠스도 알 수 없는 상황이었습니다.
작가의 리걸 마인드 상에서는 데이터셋을 뉴럴넷에 집어넣어 학습에 사용한 경우, 저작권법 위반이 발생하는 것이 불가능한 것이 아닌가 생각됩니다. 특히 생성적 모델이 아니라 단순 분류나 회귀를 하는 모델의 경우에는 아예 원본 데이터를 복원할 수 있는 가능성이 0이니 더더욱 말입니다.
호기심은 참을 수 없는 법입니다. 판사 출신 변호사님, 로스쿨 출신 변호사님 및 로펌 2곳, 총 4곳에 자문을 요청했습니다.
ㄱ. 판사 출신 A 변호사님의 입장
쉽게 판단할 수 없는 매우 어려운 사안. 본인이 답변 드릴 수 있는 내용이 아닌 것 같다.
ㄴ. 로스쿨 출신 B 변호사님의 입장
저작권 침해가 성립하는 법리는 잘 모르겠다. 하지만 침해가 성립한다는 주장과 함께 고소가 제기된다면, 수사를 통해 데이터 파일이 이동했다는 사실을 입증하는 것은 쉬울 것. 실무를 보는 변호사는 항상 조심스러운 스탠스로 답변 드리는 것이 맞다고 생각한다. 침해가 성립한다고 생각하고 조심스럽게 행동하시는 것을 추천한다.
ㄷ. C 로펌의 입장
사례가 없어 굉장히 어려운 사안이다. 전문적인 법리 검토 없이는 답변이 어렵다. 거의 논문을 한 편 쓰다시피 노력이 필요할 것 같다.
ㄹ. D 로펌의 입장
사례가 없어 굉장히 어려운 사안이나, AI모델을 리버스엔지니어링 해도 원본 데이터를 복원할 수 없다면 침해가 아닐 것으로 생각된다.
법률 전문가들조차도 AI에 빅데이터를 학습시키는 행위가 저작권법 위반인지 아닌지 명확하게 답변을 할 수 없는 상황이었습니다. 법률 논문이라도 한 편 써볼까 생각에 잠겨 잠시 즐거워하고 있었는데, 전혀 의외의 곳에서 문제가 해결될 가능성이 열렸습니다.
저작권법 전부개정법률안 (도종완의원 등 발의, 2021.01.15. 의안번호 7440)
저작권법 전부개정안 신설조문
제35조의5(정보분석을 위한 복제ㆍ전송)
① 컴퓨터를 이용한 자동화 분석기술을 통해 다수의 저작물을 포함한 대량의 정보를 해석(패턴, 트렌드, 상관관계 등의 정보를 추출하는 것)함으로써 추가적인 정보 또는 가치를 생성하기 위하여 다음 각 호의 요건을 갖춘 경우에는 필요한 한도 안에서 저작물을 복제ㆍ전송할 수 있다.
1. 그 저작물에 대하여 적법하게 접근할 수 있는 경우일 것
2. 그 저작물에 표현된 사상이나 감정을 스스로 체감하거나 다른 사람에게 체감하게 하는 것을 목적으로 하는 경우가 아닐 것
② 제1항에 따라 만들어진 복제물은 정보분석을 위해 필요한 한도 안에서 보관할 수 있다.
저작권법 전부개정안에서 발의된 신설조문 제35조의5에 따르면, 빅데이터 마이닝이나 AI 학습 용도로 데이터셋을 사용하는 경우 저작재산권의 적용이 면제될 것으로 보입니다.
단, 데이터셋을 복원할 수 있는지의 여부가 아니라 동일한 “사상이나 감정”을 “체감”할 수 있는지가 저작권의 적용 유무이므로, Neural Style Transfer나 Cycle GAN과 같은 모델들은 저작권 적용이 면제되지 않을 것으로 보입니다.
뿐만 아니라 “적법하게 접근”이라는 문구를 두고 피튀기는 소송전이 벌어질 것으로 예상됩니다. 예를 들어, 데이터셋의 제작자가 제시한 라이센스를 위반한 사용예시는 “적법하게 접근”이라는 문구에 해당하지 않는다는 판결이 내려질 가능성이 큽니다.
따라서 저작권법 전부개정안의 입장은 “AI에 데이터셋을 입력하는 행위는 종래 저작권법을 위반하는 행위는 아니다.”라는 견해를 밝히며 작가의 주장과 동일한 해석을 밝히고 있습니다.
하지만 “적법한 접근”이라는 제약을 집어넣어, “그래도 데이터셋을 제작한 제작자의 노고는 보호해야 한다.”라는 울타리를 세웠습니다. 기존의 법률로는 데이터셋 제작자를 보호할 수 없기 때문에 아예 관계를 명시적으로 법률 조문에 박아버리는 것이 이번 개정안의 취지입니다.
B 변호사님의 설명에 따르면 소송 진행 중 법률이 바뀌면 바뀐 법률을 기준으로 판결을 내린다고는 합니다. 개정안은 2021년에 발의되었으므로, 이 책에서 비영리 목적으로만 사용 가능하다 안내한 데이터셋을 영리목적으로 활용하여 송사에 휘말리게 된다면, 초기에 소송이 흐지부지 지연되다가 개정안 입법 이후 빠르게 개정안의 입법취지와 합치하는 방향으로 판결이 내려지게 될 것입니다.
아무리 현행 저작권법에 구멍이 있어 빅데이터를 AI에 투입하는 행위를 저작권법 위반으로 보기 곤란한 상황이라 하더라도, 소송 진행 도중 불법이라는 방향으로 결론이 날 가능성이 크기 때문에 독자 여러분들께서 영리목적으로 데이터셋을 활용하실 때에는 거듭 주의를 기울여주시기를 부탁드립니다.
(3) 면책 안내
이 책에서 소개되는 라이센스는 데이터셋을 발표한 연구자의 견해를 그대로 인용한 것입니다.
MimicNet의 경우 깃허브 리포지토리에서 데이터와 소스코드를 상업적 사용이 가능한 Apache 2.0 라이센스로 배포하면서도, 모델 라이센스는 상업적 사용이 불가능한 CC BY-NC 4.0 형태로 배포하고 있습니다. 이 경우 법적으로는 데이터셋의 라이센스가 Apache 2.0이라 보는 것이 타당하나, 명시적으로 데이터만 따로 콕 집어 라이센스를 주장하지는 않았으므로 제작자가 실수한 것으로 볼 여지도 있습니다.
뿐만 아니라, 저작권이 살아 있는 원본 데이터를 크롤링해 가공한 데이터셋을 제작하여 자유 라이센스로 배포해버리는 경우도 고려해야 합니다. 비록 데이터셋 제작자가 자유 라이센스로 데이터셋을 배포하였더라도, 원본 데이터의 라이센스는 그대로 살아 있습니다. 데이터셋 제작자의 표절 행위로 인해 2차적 사용자들까지도 피해를 보는 상황이지요.
데이터셋을 제작한 연구자가 법률에 대한 지식이 밝지 않아 실수를 했을 수도 있으므로, 영리목적으로 데이터를 사용하실 때에는 재차 라이센스에 대한 확인을 하시기 바랍니다. 이와 관련하여 문제가 생기더라도 저자와 생능출판사는 어떠한 책임도 지지 않습니다.
데이터셋의 라이센스 변동이나 저자의 실수가 우려된다면, 데이터셋의 깃허브 레포지토리를 포크하여 현재 버전으로 박제해 두고 사용하시는 것을 추천합니다. 이는 데이터셋이 과거에 영리목적 사용이 가능한 형태로 배포되었음을 직접적으로 증명하는 수단이므로, 충분히 디펜스 용도로 활용하실 수 있습니다.
(4) 인용
데이터의 라이센스가 Public Domain으로 명시된 경우가 아니라면, 반드시 citation 문구를 인용하여 데이터셋의 출처를 밝혀 주시기 바랍니다. 대부분의 데이터셋은 무료 사용을 허가하면서도, 반드시 저작자의 정보와 출처를 밝히는 것을 사용 허락 조건으로 두고 있습니다.
출처 명시 없는 데이터셋의 활용은 라이센스를 정면으로 위반하는 행위이므로, 연구윤리 및 저작권법 조문상 절대로 권장하지 않습니다.