brunch

매거진 기사 너머

You can make anything
by writing

C.S.Lewis

by 다혜 Aug 21. 2019

세월호 잠수영상기록 분석기

데이터와 팩트체크

[분석 배경]

4·16 세월호 참사 특별조사위원회(이하 '사참위')가 "해군과 해경이 핵심 증거인 DVR을 조작했을 가능성이 있다"라고 주장한지 28일째 되던 날이었다. 해군이 사참위에 제출한 수색 영상을 모두 담은 외장하드를 건네받았다. 작년 이맘때 영화 <그날, 바다> 검증 보도에 이어 올여름에도 세월호 관련 논란을 검증하게 될 줄은 몰랐다.

큰 틀에서 DVR 논란 검증은 그간 세월호를 계속 취재해오던 선배가 진행하고, 내가 맡은 부분은 논란에서 파생된 타사 기사 팩트체크에 가까웠다.

검증되기 어려운 하나의 논란이 점화되자 이어 '단독'을 붙인 '의혹' 기사들이 쏟아지던 그간의 1달이었다. '의혹' 기사는 논란의 불씨에 바람으로 기능하곤 하는데, 그중 눈에 띈 기사가 있었다. "세월호 6월 수색 영상 14일 치뿐… 잠수 보고서 누락 의혹" 해경이 특조위에 제출한 2014년 6월의 해군 수색 영상을 살펴봤는데, 제출된 영상은 단 2주 치뿐이었다며 그 이유는 무엇을 의미하겠냐는 뉘앙스의 기사다.(DVR은 2014년 6월 22일 건져올렸다.) 과연 그럴까? 의문이 생겼으니 6월만이 아니라 2014년 세월호 수색 영상 전체를 직접 보는 수밖에. 6월에 14일 치 누락된 게 맞는지, 다른 달은 그렇지 않았는지, 이참에 영상 관리 실태는 어땠길래 이렇게 됐는지까지 살펴봐야지.


4월 25일 첫 자료를 넘겨받았고, 7월 3일 전체 데이터 분석 내용을 문서로 정리해 완성했다. 두 달 여동안 단일 아이템만 진행하진 않았다. 자료를 단계적으로 입수하느라 지체된 시간도 있었고, 다른 업무도 많았다. 덕분에  작업은 자꾸 끊겼고, 어디까지 무슨 일을 했나 재차 돌아보느라 더 오래 걸렸다.

작업 초기 막연하게 가졌던 가설은 "과연 이게 6월만의 문제이긴 할까?"였다. 영상관리가 엉망일 게 충분히 예상됐고, 고의적인 의도와 별개로 관계자가 '일못'이었을 가능성이 있었다. 그간 세월호와 관련해 해경, 해군이 보여온 모습들 덕에 저런 가설을 세운다는 게 터무니없는 얘기로 느껴지진 않았다. 물론 취재를 통해 그렇게 판단할 다른 근거들도 갖고 있었다.

일단 처음 손에 쥔 자료는 <2014 세월호 사고 현장 잠수기록지 0 ~ 8권>과 해경이 해군에게 넘겨받아 보관하고 있던 자료 일체라며 사참위에 제출한 3TB의 외장하드였다. 이후 6월 중 추가로 입수한 자료는 해군이 세월호 수중 수색 작업 당시 사용한 영상녹화 장비(DVDR 3575H/37 모델 2대 - 평택, 진해 해군기지에서 운용중) 내 현재 남아 있는 수중 영상 일체로 한 국회의원실을 통해 입수했다. DVD는 당시 녹화된 영상 중 해경에 제출한 후 저장공간을 확보하기 위해 삭제한 영상과 저장공간이 부족하여 순차적으로 자동 덮어쓰기 형식으로 저장되어 자동 삭제된 영상을 제외한 수중 자료로 총 84장, 151시간 37분 분량의 281개 파일이었다. 이로써 해군과 해경이 갖고 있다 주장하는 영상 전체 범위를 손에 쥐게 됐다.

해군과 해경이 갖고 있다 주장하는 영상 전체



[분석 과정]

잠수기록지를 기준으로 어느 날 잠수 영상이 누락됐는지 확인하기 위해 약 7단계의 정제 작업을 진행했다. 일단 1단계, 입수한 외장하드 전체 파일 리스트를 생성했다. 뎁스(하위 폴더 단계)를 분리한 리스트에서 파일별로 폴더명, 파일명을 활용해 날짜 정보와 파일 확장자를 추출했다. 영상에 고유 시간 정보가 기록되지 않아 해경이 기록해둔 파일명, 폴더명을 이용해 촬영일을 파악해야 했다. 확장자의 경우 외장하드 내 영상이 아닌 일부 파일, 사진이나 문서 등을 일괄 제거하기 위해 따로 확인했다.


2단계, 중복 파일을 확인했다. 외장하드를 드문드문 열어보던 중에도 상당수 영상이 중복돼 담겨있다는 걸 알 수 있었다. 다른 폴더에 담긴 경우도 있었고, 완전히 다른 이름을 달고 있는 경우도 있었다. 차후 잠수기록지와 매칭할 때 같은 영상을 수 번씩 열어보는 수고를 반복하지 않기 위해 Fdupes를 활용해 중복 파일을 일괄 확인했다. 2단계 작업을 하면서 날짜 정보를 파악하지 못했던 파일들 중 날짜가 기재된 중복 영상이 존재해 추가로 날짜가 확인되기도 했고, 동일 파일인데 각각 기재된 날짜가 다르거나 장소가 다른 오류 케이스들도 발견했다. 완전히 똑같은 영상을 서로 다른 날, 서로 다른 장소를 수색했다고 기재해둔 것. 벌써 영상기록 관리 오류가 발견되기 시작했다.

묶음마다 중복파일. "처음에 준 자료", "옛날꺼", "기타잡동영상" 등 폴더명부터 예사롭지 않은 해경의 자료관리력.

3단계, 매칭 작업을 시작하기 전 마지막 단계로 외장하드 영상 중 수중 잠수 영상만 별도로 표기했다. 하드에는 기관장 방문, 유가족 브리핑용 편집 영상, 잠수 대기 영상 등도 다수 있었는데 이는 잠수기록지 매칭과 무관하므로 미리 제외하기로 했다.


4단계, 수기로 작성돼 스캔한 pdf 형태의 잠수기록지는 방법이 없었다. 기록지에 기록된 정보 중 권수, 잠수 날짜, 잠수 순번만 우선 따로 옮겨 기록했다. 잠수기록지는 전체 잠수 순번이 이어지도록 매기는 원칙이 있어, 이를 참고해 각 날짜의 Final count를 찾아 잠수 횟수를 계산했다. 이 단계에서 잠수기록지 상에 날짜 표기 오류, 자정이 넘었으나 이전 날짜로 기록된 경우, 누락되거나 중복된 잠수 회차 등을 확인했다. 여러 사람이 현장에서 수기로 작성하고 검수하지 않아 발생한 오류들이었다.

수기 잠수기록지 중 일부. 2600번 회차 잠수기록이 없다.

4단계 작업으로 작성한 날짜별 잠수 횟수 기록을 바탕으로, 각 날짜에 수중 영상이 있는지(3단계 결과), 날짜 구분 가능한 영상이 있는지(1~2단계 결과) 체크했다. 4월 16일부터 11월 10일까지 잠수기록은 있으나 영상이 없는 날이 40일이나 됐다. 수중 영상으로 범위를 줄이면 육상 스케치 영상만 있는 15일이 추가돼 55일로 늘었다. KBS가 보도한 6월뿐만 아니라 5월 영상도 다수 없었고, 7월, 11월에도 영상기록이 없는 날들이 확인됐다. 본격적인 매칭 작업을 시작해야 할 이유가 확실해졌다.


5단계, 잠수기록지를 기준으로 1~3단계를 통해 만든 영상 시트 정보를 활용해 잠수 회차별 영상을 매칭했다. 잠수기록지에 적힌 잠수사 성명, 잠수 조&소속, 수색구역, 수색시간 등의 정보를 바탕으로 영상 시트에 기록된 폴더명, 파일명, 날짜 정보 등과 비교해 매칭했다. 도저히 혼자 진행할 수 없어 아르바이트생 한 명을 일주일간 고용했다. 1차적으로 아르바이트생이 매칭한 자료를 2차, 3차 재확인하는 방식으로 진행했다. 1차 매칭보다 2차, 3차 작업하는데 기간이 두 배 이상 소요됐다. 수기로 기록한 버전이 아니었다면, OCR만 가능했다면 이런 수고로움은 없었을 텐데.

잠수기록지 기준 매칭 입력용 시트


6단계, 추가로 해군에서 DVD 84장을 보내왔다. 어렵사리 입수한 자료였고 해군에서도 공들여 구워온 DVD였다. (DVD 84장이 최선의 전달방법이었을까 의문이다...) DVD 파일 리스트를 새로 만들고 잠수사, 수색 장소, 수색 날짜 및 시간 등의 정보를 추출했다. 총 281개의 파일 중 위 정보가 추출된 파일은 9건이 전부다. 나머지는 해군에서 모두 '미상'으로 처리해 보냈다. 함께 보내온 해군의 파일안내 목록과 DVD 위 마킹스티커에도 여러 오류(순번 오기, 파일 갯수 오기, 오탈자 등)가 발견돼 '일못'의 가능성이 더 커졌다. 혹시나 싶어 DVD를 한 장씩 다 열어 총 151시간이 넘는 영상파일을 재생했지만 대략적인 내용 외에 확실하게 특정할 수 있는 정보는 없었다. 홀로 흑백 무성 파일을 한 장면이라도 놓칠세라 봐야 했던 이 기간이 이 프로젝트 중 제일 힘들었다.

일자, 장소 '미상' 투성이던 DVD 84장.
DVD 스샷은 유실물(가방)을 건져올리던 순간. DVR인가 싶어 잠시 두근거렸다.


7단계, 이렇게 찾은 9개의 DVD 영상이 기존 외장하드에는 있는지 확인했고 모두 새로운 파일임을 확인했다. 새로운 9개 파일을 5단계 과정과 같이 잠수기록지에 추가로 매칭했다.


외장하드 영상들은 모두 수 번씩 열어봤다. 처음 파일을 볼 때 존재할 거라 예상하지 못했던 이슈들이 하나씩 튀어나올 때마다 또 열고 또 열었다. 자료도 한 번에 입수한 게 아니었기에 전체 그림을 파악하는 데 시간이 걸렸다. 다음 입수할 자료가 어떤 형태로 올지 얼마나 될지 예상할 수 없는 상태에서 일을 진행하니 계속해서 예상치 못한 변수가 튀어나왔다.

사람이 입력하거나 판단해야 하는 부분이 존재하다 보니 같은 일을 수 번씩 반복하고도 다시 확인하는 과정이 무한 루프처럼 반복됐다. 잘못된 것을 확인할 수 있는 사람도, 무엇을 확인해야 하는지 아는 사람도 나뿐이었다. 일이 점점 복잡해지고 단계를 거듭할수록 초조했다.



[분석 결과]

7개월간의 수중 수색 내역이 담긴 잠수기록지를 모두 입수해 확보된 수중 영상들과 일일이 대조한 결과, 잠수기록지에 나타난 총 잠수 횟수는 3139번, 이 가운데 수중 영상이 남아 있는 건 불과 580번뿐이었다. 전체 잠수 횟수 가운데 80% 이상은 매칭 가능한 수중 영상 기록이 없었다. 날짜를 기준으로 설명하면, 총 7개월의 수중 수색 기간 중 55일 치에 대한 수중 영상을 확인할 수 없다.

그나마 남아 있는 영상도 관리 상태가 엉망이었다. 해경이 제출한 2750건의 수중 영상 중, 파일명에 기재된 수색 날짜와 폴더에 기재된 수색 날짜가 서로 다른 것이 217건이나 됐다. 수색 날짜가 엉뚱하게도 2017년으로 기재된 것도 7건 발견됐다. 또 동일한 영상인데 날짜와 수색 장소가 서로 다르게 표기된 경우도 16건이나 확인됐다. 추가로 입수했던 해군 수중 영상 281건의 경우 날짜와 수색 장소 정보를 식별할 정보가 전혀 없는 영상이 272건에 달했다.

파일명에 기재된 수색 날짜와 폴더명에 기재된 수색 날짜가 다른 경우 중 일부
날짜가 다르게 기록된 중복영상

결론적으로 해경과 해군이 보유한 수중 영상들은 전체 잠수 횟수의 약 18%에 불과한 분량이고, 보유하고 있는 영상도 시간과 장소 정보들이 엉망으로 기재된 경우가 비일비재했다. 7개월에 걸쳐 매일 수십 차례의 잠수를 모두 영상 기록으로 남겨 관리하는 작업은 '해경과 해군 입장에서는 세월호 참사 이전엔 한 번도 해보지 않은 일로 당시 영상 관리 매뉴얼도 전문 요원도 없었기 때문일 것으로 추정된다'는 기록전문가의 의견을 얻었다. 해군 장비에 저장돼 있던 영상을 DVD로 옮긴 뒤, 각 클립들의 정보를 입력하는 과정에서 여러 오류가 발생했을 가능성도 있다.

지난했던 데이터 작업을 끝내고 보고한 다음 날 7월 4일, 본래 구상한 팩트체크 기사가 아니라 처음 자료를 가져왔던 선배의 'DVR 논란 검증' 기사에 작업 내용을 녹여 처리한다고 전해 들었다. DVR 논란 검증 리포트 세 꼭지 중 하나로 녹여졌는데 그 기사는 여기서 확인할 수 있다. 만 두 달 이상 준비했던 기사를 못 내게 됐으니 아쉬움이 많지만, 장기간 진행했으니 기록을 위해 적어둔다.



개인적으로 중요했던 포인트

- 기술을 익히는 것보다 중요한건 적재적소에 활용하는 것.

- 코끼리 다리부터 만져 전체 그림을 생각하는 일은 지양해야 한다. 지양하고 싶다.

- 팀으로 존중받고, 개인으로 존중받는 일은 무엇보다 중요한 원동력이 되곤 한다.

매거진의 이전글 데이터 저널리즘스쿨 온라인 기획 후기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari