brunch

You can make anything
by writing

C.S.Lewis

by 그라데이션 Feb 16. 2020

데이터의 매력,
기획과 접목시키다

Engineering Database & Data Analysis


01 산업공학과는 데이터를 다루는 학과



"전공을 살리고 기획을 하려면 역시 데이터지"


기업에서 인재를 채용하는 공고를 보다 보면, 데이터 직군에서는 산업공학과를 선호하는 경향이 있다. 우리 학과에 처음 지원할 때만 해도 산업공학과에서 배우는 것은 공정과정이나 최적화, 물류, 품질 등에 대한 것들만 있는 줄 알았다. 나중에 18학번 후배에게 들어보니, 그들이 원서를 쓸 때는 데이터에 대한 중요성을 가장 명확히 알고 있는 곳이 산업공학과이며 이러한 분야에서의 활용도가 무척 높다는 사실을 이미 알고 있었다고 한다.


아무튼, 우리 학과에서는 데이터를 다룬다. 원래 컴퓨터공학과에 재학하다가 산업공학과에 넘어왔기에 IT계열 친구들과 이야기할 기회가 무척 많은데, 데이터를 다루는 것만큼은 우리도 그들에게 뒤처지지 않고 오히려 빅데이터나 다른 산업과 접목시킨 활용 범위는 더 넓다고 느껴졌다. 나 또한 마케팅에 관심을 가지게 되고 기획 분야에서의 꿈이 생기고 난 다음부터는 데이터를 다루는 학문에 관심이 급증했다.


다행스럽게도 우리 학과는 Engineering Database라는 과목과 Data Analysis라는 과목에서 데이터를 배울 기회가 있다. 그것도 매우 깊게. 이론적인 부분에 대해서는 물론 석박사가 훨씬 많이 배울 수 있겠지만, 개인적으로 학부생 수준에서 MySQL이나 Python을 활용하여 데이터를 활용한 여러 프로젝트를 경험하기에는 쉽지 않을 것이라 생각한다. (공모전이나 동아리, 개별 프로젝트를 제외하고는 말이다.)



02 첫 번째 프로젝트, Engieering Database



"사용자에 따른 공모전/대외활동 추천 프로그램"


시뮬레이션이나 생산 관리와 관련된 프로그램은 다뤄봤지만, 데이터만을 다루는 프로그램은 Engineering Database 과목에서 처음 경험할 수 있었다. 이 과목에서는 데이터의 정의와 활용과 관련된 내용들, SQL을 활용하는 방법에 대해서 배웠다. SQLD 자격증 공부를 하는 사람들이라면 그 내용과 거의 90% 정도 일치함 + 프로젝트가 추가로 있다고 생각하면 편할 것 같다.


우리 팀이 진행했던 주제는 '사용자에 따른 공모전/대외활동 추천 프로그램'이었다. 평소에 불편함을 겪고 있는 부분이기도 했고, 프로젝트를 진행하기 위해서 데이터를 수집해야 했는데 공공 데이터를 활용한 결과물보다는 직접 데이터 구축과 정규화 과정까지 경험하고 싶기에 선택했던 주제였다. 이 주제를 택하게 된 배경은 아래와 같았다.




대학생들은 수많은 공모전과 대외활동에 참가한다. 그러나, 그 수가 너무 많기 때문에 선택에 어려움을 겪기도 한다. 뿐만 아니라, 팀을 구성하여 나가야 하는 공모전의 경우 제한된 인맥으로는 원하는 팀원을 구하기 어려울 수도 있다. 무엇보다, 공모전을 선택하여 참가를 하려고 해도 공지 기간과 준비 기간이 너무 촉박하여 힘든 경우도 있다. 뿐만 아니라, 굳이 내가 이 공모전이나 대외활동을 해야 하는지에 대한 가치 판단 기준과 신청 기간을 놓쳐서 기회를 얻지 못하는 경우도 있다. 공모전이나 대외활동 정보를 미리 듣고 준비하는 사람들과 격차가 너무 커지게 되는 것이다.


대학생, 취준생이라면 대부분 가입한 사이트 중 스펙업과 링커리어, 그리고 잡코리아 등이 있다. 각각의 사이트는 필요한 정보를 제시하고 있기는 하나, 몇 가지 제한 사항이 있다. 각각의 사이트는 장/단점이 존재한다. 이 사이트들의 공통된 제한 사항은 바로 공모전 및 대외활동을 준비할 때 필요한 팀원을 찾는 과정이 번거롭고, 준비 기간을 고려하지 않고 정보를 띄운다는 점이다. 또한, 기업 정보와 활동을 연관시켜 학년별로 추천하는 기능 또한 존재하지 않는다. 학과별 추천과 내가 관심 있는 분야에 대한 추천 기능 또한 없다. 미리 등록해둔 개인 정보를 기반으로 이를 구현시킬 수 있다면 위의 단점들에 대한 해결 방안을 제시할 수 있을 것이라고 판단했다.


기존의 대외활동, 공모전 사이트에서는 수많은 활동 정보가 있지만 사용자가 정보를 접하기에 상당히 복잡한 면이 있고, 사용자가 회원 가입 시, 관심분야 및 활동을 설정하면 그와 관련된 활동을 추천해주는 정도에 그치고 있다. 본 프로그램의 주 활용 목적은, 보다 더 쉬운 방법으로 원하는 혜택이나 더 많은 정보를 웹 사용자마다 다르게 누릴 수 있도록 설계하고자 함에 있다. 




위의 기능을 수행하기 위해 우리는 웹사이트를 제작했다. 여기서 알아야 할 점은, 교수님은 MySQL 다루는 방법에 대해서만 말씀해 주셨지 웹사이트를 어떤 식으로 구성해야 하는지, 서버 연동은 어떤 식으로 해야 하는지, 그리고 웹디자인은 어떤 식으로 해야 하는지 등에 대해서는 알려주지 않았던 것이다. 


구글링을 통해 프로젝트를 진행하면서, DOTHOME에서 도메인과 가상 호스트를 구매하여 사용자들이 웹에 접근할 수 있도록 한 것이 첫 번째 단계였다. 사용자들은 로그인 화면을 통해 개인 정보를 입력할 수 있게 했고 웹페이지의 구성은 Autoset의 PHP와 MySQL을 활용해 서버를 구성했다. 사용자들이 입력한 정보를 DBMS로 전송하여, 원하는 결괏값을 얻을 수 있도록 했으며 HTML과 CSS를 활용하여 사용자들이 사용하기 쉬운 UI/UX 환경을 제공하고자 했다.


프로젝트의 목적과 기대효과는 아래와 같았다. 




1. 기존의 공모전 사이트와 달리 더 쉬운 방법으로 원하는 대외활동과 공모전 정보를 이용할 수 있다. 

2. 축적된 데이터에 따라 더 자세한 정보를 얻을 수 있다. 

3. 자신의 진로와 취업하고자 하는 기업에 최적화된 대외활동/공모전 참가가 가능하다.

4. 자신의 관심사에 최적화된 활동에 대한 정보를 미리 받아볼 수 있다.

5. 팀장과 팀원이 서로 컨택할 수 있어 팀 구성에 있어서 시간 절약이 가능하다.

6. 다양한 분야, 학과의 사람들과 체계적인 팀 구성이 가능하다.




발표 자료의 일부분


한 달 정도 되는 시간 동안 데이터를 수집하고, 정규화하고 ERD를 작성하여 데이터 관계를 설정하고. 이를 웹 사이트로 보여주기까지 기술적인 구현도 쉽지는 않았다. 하지만, 주제 자체가 무척 흥미롭기도 했고 팀원들도 다들 좋은 사람들이었기에 즐겁게 프로젝트에 참가할 수 있었다.


사용자에 따라 입력한 데이터가 다를 것이고, 원하는 것은 분명히 다를 것이다. 이에 데이터의 매력은 원하는 정보를 맞춤화 할 수 있다는 사실을 알게 되었고, 설득력 있는 기획을 하기 위해서는 어느 정도의 데이터를 기반으로 해야 한다는 것을 깨달을 수 있었던 경험이었다.



03 두 번째 프로젝트, Data Analysis



"미국의 사회현상을 기반으로 한 총기사건 분석 및 해결방안"


두 번째 프로젝트는 Data Analysis에서 Python을 활용하여, 배운 통계 지식들을 각종 라이브러리 함수를 활용하여 구현하는 것이었다. 우리가 선택했던 주제는 Analysis and Solution of Gun Viloence로, kaggle, cms, ranker 등에서 필요한 데이터를 수집할 수 있었다. 국내 데이터를 활용하지 않았던 이유는, 일반인들에게 제공되는 데이터는 한정적이었고(그 당시에는 찾기 힘들어서였을 수도 있다.) 교수님이 원하는 주제는 이전에 선배들이 했던 것과 비슷하면 안 된다는 암묵적인 룰이 있어서였다.


그래서 해외 데이터, 그중에서도 미국의 총기사고 문제에 집중하게 된 것이다. 미국의 총기 사고 문제는 늘 심각한 문제로 해가 거듭될수록 증가하고 있다. 1인당 총기 보유 수는 독보적으로 세계 1위를 차지하고 있고, 총기 피살자 또한 가장 높은 수치를 기록하고 있었다. 이러한 현상이 문제가 되는 이유는, 미국에서 거주하는 한국인들의 수가 무척 많다는 데 있었다. 프로젝트 당시 미국에 거주하고 있는 한국인 수는 2017년 기준 캘리포니아주 약 55만 명, 뉴욕 주 약 14만 명, 텍사스/뉴저지/버지니아 주 약 10만 명, 워싱턴 약 8만 명, 조지아/일리노이 약 7만 명으로 기록되었다. 총기 사망자 수가 가장 많은 도시는 시카고, 뉴욕, 로스앤젤레스로 각각의 도시는 위치한 일리노이, 뉴욕, 캘리포니아 주에 포함되어 있었던 것이다.


단순히 총기 사용을 금지시키는 데는 문제가 있었다. 가장 쉬운 방법은 총기 사용을 규제하는 것이지만, 이마저도 2015년 오바마 대통령 당시 이와 관련된 법안을 제시했다가 기각된 사례가 있었다. 규제가 힘든 원인은 크게 5가지로, 전미 총기 협회(NRA), 게리 멘더 링, 필리 버스터, 법원, 그리고 열의의 차이에 있었던 것이다. 우리는 이러한 문제점들에 착안하여 지역별로 총기 사고가 많이 날 수밖에 없었던 원인들을 분석했다. 그리고 원인들을 기반으로 어떤 제도 및 현상이 개선되면 총기 규제를 강화하지 않고도 문제점을 해결할 수 있는지에 대한 방향성을 제시하고자 했다. 관련된 선행 연구 내용은 아래와 같았다.




총기 사고가 단순히 개인의 문제 때문에 발생하는 비극인지 아니면 사회가 미치는 영향 때문에 벌어지는 비극 인지에 대해 의견이 분분하다. 실제로 미국에서 총기 사고와 여러 가지 영향을 관련해 연구한 자료들이 있다. American Psychiatric Association에 의하면 총기 사고와 정신질환을 관련 문제를 시사하고 있다(2016; James L. Knoll, M.D, George D Annas, M.D, M.P.H.). Generation Progress에 의하면 총기 사고와 교육 수준의 관계에 대해 교육 수준이 올라갈수록 총기사건이 발생할 확률이 낮아진다는 것을 시사하고 있다(2013; Chris Lewis). New York Times에서는 개인 총기 소유율에 따른 총기 사고 발생률에 대한 연구를 진행했다(2017; Nicholas Kristof). 


총기 사고와 교육 수준 문제를 대상으로 한 연구에서부터 개인의 정신질환과 같은 총기 사고와 관련된 단일 영향에 대한 연구가 활발하게 이루어지고 있지만 두 가지 한계점이 있다는 것을 발견하였다. 첫째, 사회 전반적인 데이터를 통해 종합적으로 분석한 연구를 진행하지 않았다. 둘째, 해결책의 제시보다는 총기 규제의 필요성에 대한 주장에 가깝다. 본 과제에서는 데이터 분석을 통해 총기 사고에 영향력을 미칠 수 있다고 생각하는 의료, 교육, 사회 데이터를 통해 사회 전반적인 문제를 다루고, 실질적인 해결책을 제시하고자 한다.




프로젝트 진행을 위해 수집했던 데이터는 미국의 총기사건 데이터, 세금 데이터, 의료 데이터, 사회문제 데이터였다. 이러한 전반적인 데이터에서 22개의 attribute를 추출하였고, 데이터의 형태는 int, float, ratio였다. 분석 방법은 상관 분석, 주성분 분석, 요인 분석, 그리고 군집분석이었다. 결론적으로는 학생이나 일반인들의 정신 질병과 세금 증가, 경찰의 과잉 진압 체제 등이 총기 사건과 연관 관계가 있다는 것을 알게 되었고 이와 관련된 개선 방안을 제안했다.


나는 데이터를 수집하여 정규화하는 것, 그리고 시각화 일부를 담당했다. 과제를 통해 각각의 분석 기법에 대해 습득하기도 했고, 분석된 데이터를 기반으로 결론을 내리는 과정에도 기여했다. 프로젝트는 개인의 역량이나 역할도 중요하지만, 각자가 잘하는 것을 책임감을 가지고 맡는 것도 중요하다고 생각한다. 프로젝트를 통해 문제점을 분석하고, 데이터를 통해서 결론을 도출하면서 나는 데이터의 매력에 한 번 더 빠지게 되었다.



발표 자료의 일부분. 심지어 영어 발표였다.


04 니즈를 발견하고 데이터와 접목시키기



"데이터는 기획을 더욱 탄탄하게 하는 것"


사실 프로젝트를 경험하기 전까지 기획은 단계만 잘 지키면 되는 것이라는 생각을 했다. 사용자의 니즈를 바탕으로 필요한 것을 제안할 수 있고, 그것이 결론적으로 사용자들에게 필요로 된다면 가치 있다고 생각했던 것이다. 그러나 프로젝트를 진행하면서 그러한 결론 도출 과정에서도 객관적인 데이터를 기반으로 한 명확한 증거자료가 있어야 한다는 생각을 하게 되었다.


내가 경험했던 교내 프로젝트는 데이터만을 활용하는 프로젝트였다. 그렇기에 그 경험만 놓고 보았을 때는 내가 하고자 하는 일과는 상관이 없다고 생각할 수 있다. 그렇지만, 더 나아가서 바라본다면 데이터를 다루는 능력과 이를 볼 줄 아는 능력, 그리고 이를 활용하여 결론을 도출할 줄 아는 능력은 기획에서 매우 중요한 역량이라는 것을 깨달았다. 


만약 데이터가 없었더라면 사용자가 입력한 정보를 어떤 식으로 활용해서 대외활동이나 공모전을 추천해줄 수 있었을 것이며, 미국에서 아무리 총기사고가 빈번하게 발생한다고 한들 어떤 식으로 해결을 해야 할 지에 대해 주장하는 것이 얼마나 힘이 있을지에 대해서 알게 되었기 때문이다. 이렇듯, 데이터는 기획을 더욱 탄탄하게 뒷받침해주는 매력이 있다고 생각한다.





그 이후에도 나는 기획 분야에서의 경험뿐만 아니라, 어느 정도의 데이터 관련 지식을 쌓기 위해서 노력하고 있다. SQLD나 ADsP 자격증 공부도 하고 있고, 시사 뉴스 같은 것도 찾아보면서 취업을 하고 난 다음에 어떤 분야에서의 공부를 더 해야 할지에 대한 고민도 하고 있다.


산업공학과에서 배우는 지식은 매우 넓고 얕다. 그러나, 만약 자신만의 방향성이 정해진다면 어떤 길이든 전문성을 쌓기에는 매우 적합하다고 생각한다. 이러한 학과 특성 덕분에 나는 기획에 흥미를 가지게 되었고, 데이터 분석 능력의 필요성을 알게 되었다. 




이전 05화 소소한 취미로 누군가에게 도움이 되기까지
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari