대학생활 3년, 인스타그램 데이터로 보여주자

Project 3: Data Visualization

Aug 2. 2021

이번 학기 가장 애정을 가지고 수강한 수업 '디자인사고와 커뮤니케이션'!

Small Multiples, Infographics, Data visualization을 주제로 총 3개의 프로젝트를 진행하고 결과물을 포스터로 직접 인쇄까지 하는 것이 최종 과제이다. 숱한 밤을 새며 완성한 자식과도 같은 프로젝트들의 워크로그를 찬찬히 풀어나가보려한다.

Goal of Project 3

마지막 프로젝트는 '데이터 시각화' 프로젝트로, visual representation을 통해 독자가 데이터를 이해하고 탐색할 수 있게 만드는 것이 목표다. 흥미로운 이야기를 풀어낼 수 있는 데이터를 선택하는 것이 관건! Processing 툴을 활용해 데이터 시각화를 진행하는 것을 권장한다.

Step 1: Ideation & Data Collection

이번 프로젝트는 '데이터 시각화'였기 때문에 아이디에이션의 시작은 '어떤 데이터를 모을 것인가?'였다. 평소 Giorgia Lupi의 'Dear Data'를 좋아해왔기 때문에, 이번 프로젝트의 주제는 Quantified Self로 해보고싶어 '나', 특히 대학생의 자아를 가진 나를 표현할 수 있는 데이터를 찾아 헤맸다. 그러던 중, 일기처럼 사용해온 인스타그램 스토리가 생각났다. 데이터를 구할 수 있을지 찾아보니, 다행히 본인 계정에 한해서 인스타그램 측에 데이터를 요청하면 html 형태와 media 형태로 그동안 올린 인스타그램 스토리 데이터를 받아볼 수 있다는 것을 알았다.

크롤링한 데이터의 일부

이렇게 미디어파일 형식으로도 주어진다

받은 데이터의 html 파일을 긁은 결과, 위과 같이 올린 날짜와 시간대, 그리고 올린 텍스트를 받아볼 수 있었다. 날짜와 시간대의 경우 미국 기준으로 되어있어서 한국 시간대로 다시한번 정제해주는 과정이 필요했다. 또한 분석 기간은 시각화의 목적에 맞게 대학에 입학한 2018년 3월부터 2020년 4월까지로 제한해 총 2108개의 스토리를 대상으로 잡았다.

Step 2: Data Analysis

그러나 주어진 데이터로만 시각화를 진행하기에는 한계가 있었다. 알맹이는 각 스토리를 통해 당시 나의 상태를 알아보는 것이었기 때문이다. 따라서 나의 기억을 빌려 스토리를 보면서 당시 기분(happy, gloomy, neutral), 업로드한 지역, 인스타 스토리 타입(음식에 관한건지, 술에 관한건지, 영화에 관한건지 등등...)을 라벨링하는 작업이 추가적으로 필요했다. 문제는 그동안 올린 스토리의 개수가 2106개라는 것이었다. 처음에는 곳곳에서 튀어나오는 흑역사들에 매우 고통받았지만 이러다가 데이터 정리만 일주일 넘게 걸리겠다는 생각이 들어 나중에는 아무 생각 없이 필요한 데이터를 기계적으로 입력하는 경지에 이르렀다.

[직접 라벨링한 데이터 목록]

1. theme: 인스타그램 스토리 유형(travel, drink, food, share emotion, achievement, my photo 등)
2. mood_numeric: 0(부정) - 100(긍정)
3. mood_status: happy / gloomy / angry / neutral
4. region1: 국내인 경우 시도단위, 해외인경우 나라명
5. region2: 구체적 지역(이태원, 문래, 강남, 신사, 연남 등등)
6. region3: 장소 타입(음식점, 카페, 술집, 거리, 전시회, 영화관, 교통, 관광명소, 쇼핑공간 등)
*모르겠는건 na 처리

역시 원하는 데이터를 얻기 위해서는 인간 코더를 굴려야한다(?)

입력이 끝나고 본격적으로 분석을 들어가야겠다. 목적은 시각화할만한 거리 찾기! 연도별, 월별로 스토리 업로드 개수, 감정, 지역, 스토리 타입의 분포가 어떠한지 R로 대략적으로 확인을 해봤다. 연도별로 올린 스토리 개수가 특히 18년도의 경우 다른 해에 비해 적었기 때문에, 개수가 아닌 전체에서 차지하는 비율로도 분석을 해봤다.

난리났네 난리났어

처음 분석하고 나서 든 생각은 ~~'아 망했다'~~였다. 뚜렷하게 어떤 경향성을 바로 시각화를 통해 확인하기에는 어려움이 있었기 때문이었다. 날짜, 시간 이외에는 애초에 분석이 불가능한 데이터를 분석 가능한 형태로 직접 라벨링한 것이었기 때문에 너무 구분이 조잡했다. 그럼에도 불구하고 몇몇 흥미로운 부분을 찾아볼 수 있었다. 시험기간인 4월에는 우울한 무드의 스토리가 올라오는 비율이 높았고, 새내기 때 행복한 스토리의 비중이 높았다는 것이 일례다.

따라서 가지치기를 하기로 결심했다. '보여줄 수 있는 것이 무엇인가'를 찬찬히 정리하고, 이를 부각하기 위해 나머지 자잘한 데이터들을 적절히 묶어주는 작업이 필요했다. 예를 들어, 영화, 전시, 공연으로 나뉜 카테고리를 문화생활로 묶어주는 식이었다. 또한 같은 내용을 보여주는 데에 데이터를 중복해 활용하지 않기로 했다. 당시 기분이 어떤지 보여주기 위해 수치로 된 감정 평균과 happy/gloomy/neutral 비율을 중복해서 보여주는 것은 독자 입장에서 두 번 확인해야하는 피로한 일이었다.

Step 3: Data Visualization

어느정도 데이터 정제가 끝난 이후에는 어떻게 보여주는 것이 효과적인가를 고민했다. 처음에는 인스타그램 아이디이자 내 별칭인 keyeun에서 아이디어를 얻어 열쇠를 메타포로 스토리들을 보여주려했다. 그러나 열쇠라는 메타포에 갇히자 데이터를 보여주기 위한 시각화가 아닌 시각화를 위한 데이터 사용이 되는 주객전도의 현상이 벌어졌다.

효용이 없는 위 방법은 폐기하고 무작정 behance에 'data visualization'을 검색해 몇시간이고 레퍼런스만 보면서 다른 사람들은 어떤 데이터를 어떻게 표현했는지 익혔다.

다른 사람 작품 감상하는건 시간가는줄 몰라요

운이 좋게도 벤치마킹 할 수 있는 작품을 두 개나 찾았다. 좌측 레퍼런스로부터 약 10개에 달하는 인스타그램 스토리 유형을 깔끔하게 보여주는 방법을, 우측 레퍼런스로부터 3종 무드셋을 보여주는 직관적인 방법을 배웠다.

아이디어의 핵심이 되었던 레퍼런스

그러나 내 작품에 이를 적용하는 것은 또 다른 문제였다. 프로세싱으로 코드를 짜 감정 다이아몬드를 만들어내는 과정에서, 감정 다이아몬드들을 어떻게 배치하는 것이 효과적인가부터 고민해야했다. 지인들 여럿에게 보여주면서 반응을 살피는 것밖에 방법이 없었다.

고민의 흔적들

Step 4: Layout (근데 이제 Step 3를 다시 곁들인)

레이아웃이라 썼지만 사실 step 3의 연장선이라고 봐도 무방하다. 그 이유는 레이아웃을 고민하며 내가 택한 데이터 시각화 방법이 잘못되었음을 깨달았기 때문이다. 아래 그림들이 그 숱한 실패작들 중 일부이다.

이번에도 실수는 하나의 시각화방식에 매몰된 것, 다시 말해 감정 다이아몬드들에 꽂힌 것이었다. 이렇게 시각화를 하면 감정이 어떻게 변화하고 있는지 양상을 보여줄 수 있지만 나머지 인스타그램 스토리 유형에서 볼 수 있는 월별 경향성을 시각화하기에는 어려움이 있었다. 38개월에 달하는 감정 다이아몬드들을 적절히 배치하는 것도 여간 쉬운 일이 아니었다. 학년별로, 월별로 변화하는 양상을 보여주고 싶은데 방법을 도저히 모르겠어서 다시 레퍼런스의 바다를 유영했다. 그러던 중, 이번 프로젝트의 가장 큰 aha moment를 가져다 준 작품인 페이스북 dm dataviz 작품을 보게 되었다.

이 작품을 보고 번뜩 깨달은 것들은 다음과 같았다.

1. 아 굳이 내가 연도, 월 순으로 그리드를 만들 필요가 없구나. 저렇게 연도끼리 묶어서 하나의 덩어리를 형성하고 안에 월 배치는 자유롭게 해보자!
2. 간단한 도형 하나로 전체 스토리 수를 보여주고 레퍼런스에서 흑백으로 레퍼런스가 표현했듯, 나는 3가지 감정 상태를 간단한 도형 내에 비율로 표현해야겠다.

월별 스토리를 상징할 수 있는 도형으로는 인스타그램 스토리 사이즈인 9:16의 직사각형을 선택했다. 그리고 월별 도형들을 생산하는 데에는 하단과 같이 프로세싱을 활용했다 . 그리곤 이 스토리를 연도별로 모아 각각을 하나의 포스터로 만들었다. . 포스터의 크기도 역시 인스타그램 스토리 비율인 9:16에 맞춰 포스터 각각이 다시 인스타그램 스토리로 업로드될 수 있도록 제작했다.

드디어 완성!

[P3] 1156 Days, 2108 Stories

2018년부터 2021년까지, 1156일간 올린 2108개의 인스타그램 스토리 비주얼라이제이션! 연도별 포스터 안의 small multiple들은 월별 스토리 게시 현황(mood, 스토리 타입, 총 스토리 개수)을 상징한다. (자세한 사항은 위에 how to read 참조!) 연도별 포스터에서 디자인 포인트로 활용한 것은 인스타그램 스토리에 쓰이는 스티커(위치, q&a, stay home 등)로, 독자가 재미있게 annotation을 읽을 수 있도록 했다.

행복한 새내기 시절

대2병 스트레스, 그리고 여행 중독

코로나로 인해 사라진 여행, 슬럼프, 그리고 극복

처음으로 슬기롭게 난 4월 중간고사 기간

Data Visualization이 마지막 프로젝트인데는 이유가 있었다. Project 1, 2를 하며 공부한 모든 것들을 총 방출해야하는 프로젝트였기 때문이다. 역대 프로젝트 중 가장 많은 시도를 하고, 또 폐기를 하면서 더 나은 시각화 방식에 대해 깊은 고민을 할 수 있었다. 교수님이 마지막 크리틱 때 'Simplicity is the best'라고 평해주신 것처럼, 디자인에서 가장 중요한 것은 보여줘야하는 것을 확실하게 보여주기 위해 나머지를 가지치기할 수 있는 용기인 것 같다.

여담이지만, 인생도 마찬가지로 포기할 건 포기할 줄 알아야하는데 그게 참 어렵다. 많은 것을 쥐고 있으려고하다보면, 결국 가장 중요한 것을 놓치게 되는 불상사가 생긴다. "삶은 곧 인생을 디자인하는 여정"이라는 말처럼, 디자인을 공부하는 과정이 곧 삶을 제대로 사는 법을 배우는 과정인 듯 하다. 다소 거창한 마무리 같지만, 뭐 그만큼 '디자인사고와 커뮤니케이션'가 손에 꼽는 인생 강의였기에 이정도 스케일의 강의평은 해야하지 않나 싶다. 아무튼 디사컴 워크로그는 여기서 끝!

keyword

이기은 Keyeun Lee 직업 학생

데이터가 가지고 있는 이야기를 찾아내고, 이를 효과적으로 전달하는 일에 관심이 많습니다.

팔로워 159

영원히 수도권 매립지를 쓸 수는 없잖아매거진의 다음글