brunch

You can make anything
by writing

C.S.Lewis

by 데이터쟁이 Nov 09. 2020

차트의 장난

Logarithmic Scale




데이터베이스에서 추출된 데이터를 각종 시각화 툴을 사용하거나 간단하게는 엑셀로 후처리를 하곤 한다. 여러 테이블들로 피봇 데이터 정리를 하고, 시계열로 데이터를 뿌리거나 해서 데이터의 이해도와 전달력을 높인다. 

 주로 그렇게 작성된 데이터를 받아보게 되는 사람은 시각적으로 눈에 띄는 것들에 먼저 눈이 가게 되고 (일부는 그것만 발췌해서 보기도 하고..) 그것에서 습득되는 정보로 판단을 할 수도 있다. 

 

 정작 글을 받아보는 사람뿐만 아니라, 해당 글을 작성하는 분석가 또한 옳지 않은 시각화로 인해 편향된 데이터를 후처리 하는 셈이 되거나, 스스로의 오류에 고착될 수도 있다. 


아래 두 차트를 보고, 느껴지는 바를 고심해보자



 (이하의 차트에 대한 분석과 생각은 온전히 완벽하게 철두철미하게 저만의 생각이며, 그 어떤 상황과 미래에 대한 예측을 대변하지 않습니다. 주관적으로 설명을 돕기 위한 예시이며, 해당 시장의 전망에 대해 부정적으로도 긍정적으로도 생각하지 않습니다.)






읽기 나름이겠지만, 조금은 상이한 결론으로 읽히기에 충분한 두 차트이다.

하나는 급격한 상승과 하락을 반복하며, 우상향하고 있는 차트로 보이고

또 하나는 지속적인 상승은 하고 있지만, 그 상승폭이 점차 좁혀져 가며, 특정점에 수렴해가고 있어 보인다.


 읽기 나름이라고 이야기했는데, 두 차트의 차이점은 세로축의 스케일(Scale)에 있다. 위 차트는 축 단위가 5천으로 균일하게 분배되어 있고, 아래 차트는 10배 기준으로 분배되어 있다. 여기서 오는 차이점의 주된 부분은 1에서 100이 된 것과 100에서 10,000이 된 것에 차이를 두는 데에서 온다. 판단의 오류에 발생하는 부분이기도 한데, 예를 들어 1에서 100이 되는 데까지 6개월이 걸렸고, 100에서 10,000이 되는 데까지도 6개월이 걸렸으니 10,000에서 1,000,000이 되기까지도 6개월이 걸릴 것이라 생각하는 것. 물론 선형 회귀의 형태(Linear Regession)를 보여주는 추세선이라면, 그 계산이 맞을 수도 있겠지만 단순히 x와 y만 놓고 비교하는 것이 아니기 때문에 그렇게 읽히지 않는다. 


 눈치챌 사람들은 이미 챘겠지만, 위 두 차트는 최근 10년간 비트코인의 가격이다. 시작점을 태초의 가격인 0$ (정확히는 0.0000001 원 이런 식이였겠지만..)으로 책정하고 현재까지의 흐름을 본 위 차트의 경우 우여곡절이 있었지만 상승과 하락이 굉장히 급변하는 것으로 보인다. 차트 중간쯤에 2,000쯤에서 15,000까지 급등한 구간이 눈에 띈다. (선입견을 제외하기 위해 시간축은 제외하였음) 단기간 내에 7배 이상이 상승하게 되면서 전체적인 차트의 스케일을 변모시켰는데, 이는 명확한 판단을 하기 힘들다. 차트상으로는 거의 묻혀서 보이지 않지만, 동일 차트 초창기 시절 데이터를 보면 여드름만 한 상승 이력이 있다. 상대적으로 15,000까지 상승했던 것에 비해 상승'액'이 낮기 때문에 차트에서 거의 보이지 않는 것인데, 아래의 차트에서 보면 그 시절의 상승폭은 10에서 1,000까지 100배에 가까운 상승을 보여줬다. (참고로 1에서 10으로 올라가던 것도 1,000%의 상승을 뜻하지만, 위 차트에서는 아예 표기조차 되어 있지도 않다.) 





 이렇게 같은 데이터를 가지고도, 어떤 식으로 시각화를 하냐에 따라서 그 결과가 달라질 수 있으며 그렇게 달라진 결괏값에 따라 액션 아이템이 극명하게 갈릴 수도 있다. 또 한편으로는 분석 리포트를 작성하는 사람 심연의 의도가 팩트라는 가면을 쓰고 리포트의 형태로 세상 밖으로 나올 수도 있다는 말이다. 






 지금까지 비트코인은 10여 간만 100만 배가 넘는 성장을 해왔습니다. 향후 엄청나게 많은 상승할 잠재력을 보이고 있습니다. 최근 수년간의 하락은 전체에 비추어 보았을 때 상대적으로 단순한 조정에 불과합니다. 먼 미래를 내다보고, 장기적으로 투자해야 할 시기입니다. 


라는 분석과


최근 10여 년간 급격한 상승을 보여줬던 비트코인의 가격이 10,000$를 기점으로 그 상승세가 특정점에 수렴하고 있으며, 그 돌파구를 뚫지 못한다면 큰 폭으로 하락할 수도 있을 것으로 보입니다. 매 상승 시마다 보여줬던 상승폭이 점감하고 있으며, 그 점감 되는 상승폭은 0에 수렴하게 될 것입니다. 투자시기와 위험성에 유의하시기 바랍니다.




라는 분석 모두 같은 데이터를 놓고 나올 수 있다는 말이다. 부정적인 영향을 대중에게 끼쳐 주가를 조작할 수도 (물론 본인이 그만한 사람이 되는 게 먼저겠지만, 똥을 싸면 유명해진다는 앤디 워홀..처럼), 잠재적 성장력에 대해 강조할 수도 있다. 


뭐랄까, 분석가는 본인의 생각이 아니라 숫자를 잘 다듬어서 전달하고 판단은 결정권자가 정리된 그 숫자들을 보고 하는 것이며 그 결정을 돕는 서포터의 역할을 수행한다고 생각한다. 팩트를 전달하는 척하며 그 가면을 쓰고 본인의 생각을 녹여서 전달한다면 사기 그 이상 이하도 아니라고 본다. 숫자를 정리하는 식의 분석이었다면 저 위 2가지 사례의 분석 모두를 잘 취합하여 전달할 것 같다. 





최근 10여 년간 급등한 비트코인은 초창기에 시작된 가격에 비해 천문학적인 상승폭을 보여주고 있으나, 특정시기마다 보여주던 급등하는 패턴에서의 상승폭이 점감하고 있습니다. 상승폭이 점감 하는 추세를 보아 상방(上方)의 잠재력의 한계점이 보임과 동시에, 하방(下方)으로의 포텐셜이 보입니다.  수 년째 10,000k 인근에서 수렴 중이며, 이 횡보의 끝에 급등락이 예상됩니다. 시기적으로 매수, 매도 어느 쪽으로도 불안한 시점으로 보이며 어느 한쪽으로 큰 폭으로 움직인 다면 그때의 시장에 형국에 따라 매수/매도의 결정을 하는 편이 손실을 최소화시킬 수 있는 방안이라 생각됩니다.  




이쪽으로는 문외한이기 때문에, (그리고 단순히 차트만으로 향후 전망에 대해 논하기에는 턱없이 데이터량이 부족한 시장이기 때문에도..) 누구도 미래를 예측할 수 없겠지만, 단순히 차트를 어떤 식으로 놓고 읽느냐에 따라서 그 결론이 얼마든지 뒤집힐 수도 있다는 부분에 대한 설명을 위한 예시이다. 






로그 스케일과는 관계가 적지만, 시각화의 오류에 대한 적합한 예시가 최근 끝난 미 대선의 결과물에서 보여서, 첨부한다. 

이 시각화 자료에 따르면, 빨간색이 압도적으로 많아 보인다. 이렇게만 전달한다면, 트럼프의 연임이 확실해 보일 수도 있겠다. 하지만 각각의 칸의 크기는 각 선거구의 물리적 크기를 뜻할 뿐, 인구수를 표현하지는 않는다. 그렇다면 위 차트에서는 어느 당으로 표가 쏠렸는지에 대해 선거구를 카운트 함에 있어 효과적일 수는 있으나, 어느 쪽의 표가 높고 낮은지에 대해서는 전혀 판단할 수 있다. 지역구의 크기를 해당 지역의 투표 참여인원으로 바꿔 표기한다면 아래와 같다.



빨간색의 표밭으로 보였던 중부, 북부의 영향력이 급락하였으며 전체적으로 우세였던 지역구의 수가 적었던 파란색이 우세인 서부와 동부의 참여 인원수가 압도적으로 많기 때문에 첫 차트와는 대조적인 결과로 해석되었다. 

(https://www.core77.com/posts/90771/A-Great-Example-of-Better-Data-Visualization-This-Voting-Map-GI F)





산개(散開)되어 있는 데이터들을 여러 가지 방법(전처리, 시각화, 정제 등)을 통해 가감 없이 정리하고, 잘 정제되어 있는 데이터들 안에서 미래의 대응책을 마련하는 방법을 간구하는 것이 순수한 목적이라 생각한다. (정말이지 투자 바닥은 예측이 안돼서 분석 백날 해봤자 손실을 피하게 어렵더라..) 











참고 문헌(이라기에는 그냥 링크) : Logarithmic Scale 


logarithmic scale (or log scale) is a way of displaying numerical data over a very wide range of values in a compact way—typically the largest numbers in the data are hundreds or even thousands of times larger than the smallest numbers. Such a scale is nonlinear: the numbers 10 and 20, and 60 and 70, are not the same distance apart on a log scale. Rather, the numbers 10 and 100, and 60 and 600 are equally spaced. Thus moving a unit of distance along the scale means the number has been multiplied by 10 (or some other fixed factor). Often exponential growth curves are displayed on a log scale, otherwise they would increase too quickly to fit within a small graph. Another way to think about it is that the number of digits of the data grows at a constant rate. For example, the numbers 10, 100, 1000, and 10000 are equally spaced on a log scale, because their numbers of digits is going up by 1 each time: 2, 3, 4, and 5 digits. In this way, adding two digits multiplies the quantity measured on the log scale by a factor of 100.

 


 

작가의 이전글 인과의 오해
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari