brunch

You can make anything
by writing

C.S.Lewis

by 수민 Jan 31. 2022

국회의원 자녀 재산 트렌드, 데이터로 보다

곽상도 아들 50억원 숨긴 '고지거부' 데이터 출처, 분석과 시각화

안녕하세요, 오늘은 지난해 10월에 발행한 곽상도 아들 50억원 숨긴 '고지거부'··· 제도 개선 수년째 제자리 기사 제작기를 풀어보려 합니다. 국회의원이 직계비속의 재산 고지를 거부했는지, 고지했다면 직계비속의 재산 규모는 어느 정도인지를 알아봤습니다.


이 기사는 팀 선배의 발제로 시작됐습니다. 국회의원은 법적으로 본인 재산을 공개해야 하지만 부모, 자식 재산은 공개를 거부할 수 있습니다. 처음 목표는 숨긴 자녀 재산을 간접적으로 보여주는 데이터를 찾는 것이었습니다. 공개된 본인 재산을 이용해 본인 재산과 직계비속 재산 데이터 사이 관계를 찾아봤습니다.


들어가기 앞서 뉴스타파에 감사를 전하고 싶습니다. 분석에 사용한 데이터는 뉴스타파가 제공하는 고위공직자 재산 공개 데이터입니다. 국회공보에 올라오는 재산공개 원본은 pdf 파일인데요. pdf 파일을 분석에 사용할 수 있는 데이터로 만드는 데에는 많은 노력이 필요합니다. 뉴스타파 덕분에 수고를 덜고 분석에 집중할 수 있었습니다. 해당 데이터는 뉴스타파 회원들에게만 제공되기 때문에 정제한 데이터를 공개하지 않았습니다.


1. 그래프로 재산 공개 거부 추이 살피기


2011년부터 2021년까지의 국회의원 재산 정보를 들여다봤습니다. 재산 대분류 열을 확인하면 고지거부 여부를 알 수 있습니다.

고위공직자 재산 공개를 정제한 데이터의 일부

전체 국회의원 중 자녀 재산을 공개하지 않은 의원의 비율을 구했습니다. 지난 10년 평균은 23.9%입니다. 시간 순으로 그래프에 올리자 재밌는 흐름을 발견할 수 있었는데요. 의원들의 자녀 재산 고지 거부 비율이 임기 초반에 가장 낮고 해가 갈수록 높아졌습니다.

임기마다 나이키 모양을 띄는 그래프

2021년 거부 비율은 18%로 지난 10년 동안 가장 낮았습니다. 데이터에 따르면 임기 1년 차는 항상 임기 중 가장 낮은 거부율을 보였습니다. 2022년 재산을 확인했을 때 거부 비율이 올랐다면 더욱 재밌는 그래프가 될 것 같네요. 물론 국회의 투명성을 위해 거부율은 낮아져야 합니다.


2. 데이터를 연결해 고지 거부한 국회의원의 특징 찾기


자녀 재산을 고지하지 않은 국회의원들이 어떤 특징을 가지는지 알아봤습니다. 먼저 재산 규모입니다. 고지한 의원보다 하지 않은 의원들의 재산 규모가 더 컸는데요. 이를 바이올린 그래프로 나타냈습니다. 파란색이 고지를 한 집단, 주황색이 고지를 거부한 집단입니다. 파란 점선은 고지 집단의 중간값이고 주황 점선은 고지 거부 집단의 중간값입니다. 아래 그래프에서 확인하실 수 있듯 고지 거부 집단의 중간값이 더 컸습니다.

바이올린 그래프는 파이썬의 seaborn, matplotlib 라이브러리를 사용해 그렸습니다. seaborn으로 바이올린 그래프와 산점도를, matplotlib로 중간값 선과 범례를 올렸습니다. 자세한 코드는 제 깃허브에서 확인하실 수 있습니다.

바이올린 그래프 >> https://github.com/SL-ee/ChildGotMoney

그래프를 그릴 때 사용한 데이터는 아래와 같이 정제했습니다. 깃허브에서 원본 데이터를 확인하실 수 있습니다. 제외 시트는 outliers를 제외한 리스트이고 전체 시트는 제외하지 않은 리스트입니다. 바이올린 그래프는 outliers를 제외한 리스트로 그렸습니다.

정제한 데이터의 일부

두 번째 특징은 선수입니다. 고지를 거부한 의원들의 당선 횟수가 고지한 의원들보다 많았습니다. 당선 횟수 데이터는 열린국회정보에서 가져왔습니다. 당선 횟수 열에 초선, 재선, 3선... 값이 들어가 있습니다. 이를 1, 2, 3...으로 변경해주었습니다.

급하게 엑셀로 만든 재산 공개/비공개 국회의원 당선 횟수

왼쪽은 자녀 재산을 공개한 의원, 오른쪽은 공개 거부한 의원들의 당선 횟수(1~6)입니다. 색이 진할수록 많이 당선된 의원입니다.


이외에도 국회의원 본인 대비 자녀 재산 비중 변화를 살펴보았습니다. 데이터는 뉴스타파 고위공직자 재산 공개 데이터를 사용했습니다. 재산 대분류별(건물, 토지, 증권 등)로 비중을 추출해보니 건물 재산의 변화가 컸습니다. 데이터를 추출한 방식은 고지 거부 비율과 유사하므로 생략합니다. 자세한 분석 결과는 기사를 통해 확인해주세요.


3. 마치며


여러 데이터를 붙여보면서 국회의원 본인과 자녀 재산의 관계를 찾아가는 과정이 재밌는 기사였습니다. 팀원들이 제가 그린 그래프 대부분을 기사에 올릴 수 있도록 도와주셔서 감사하기도 했습니다. 시각화에 책임이 생기니 기사를 발행한 후에도 더 좋은 시각화 방식을 찾게 되더군요.

공공기관에서 발표하는 파일들을 데이터화하는 작업에도 관심이 갔습니다. 한글이나 pdf 파일을 올려놓고 '데이터 공개'라고 하는 일들이 다분히 일어나는데요. 이런 파일을 데이터화해보고 싶다는 생각이 들었습니다. 이번에 사용한 데이터를 만들어준 뉴스타파처럼요.


다음 제작기는 젠더기획 '우리가 명함이 없지 일을 안 했냐'입니다. 총 5화로 구성된 기획인데요. 다이브는 1화와 2화에 기사를 썼습니다. 책으로 출간하다 보니 공을 들여 데이터를 분석했습니다. 현재 텀블벅에서 책을 구매할 수 있으니 한 번 구경 가보셔도 좋을 것 같습니다.

작가의 이전글 교통약자에게 더 위험한 발빠짐 사고, 데이터로 보다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari