SHAP Value를 활용한 비트코인, 이더리움 그리고 알트코인 분석
크립토 세계에서 투자자가 가장 의구심을 갖는 부분이 ‘가치평가’이다. 아직 본격적으로 현금흐름을 창출하는 프로젝트나 블록체인이 없기 때문에 크립토를 비롯한 웹3.0 산업 전반에 대한 가치평가가 필요한 시점이다. 필자가 가상자산 연구를 시작하고, 해당 산업으로 커리어를 고민하는 현 시점에서 가장 크게 고민하는 부분은 이 시장이 가치가 있고, 지속가능한가 이다. 그리고 이를 입증하기 위해 밸류에이션 관련 연구를 진행하던 중, SHAP value에 대해 알게되었고, 마침 coinbase와 코빗에서 SHAP value를 활용해 이더리움과 비트코인의 가격변동 영향요인을 분석한 리포트를 읽게 되었다. 그리고, SHAP value를 사용하면 크립토 밸류에이션을 위한 factor들을 살펴볼 수 있지 않을까 해서, 관련 분석을 시행해보았다.
본 리포트는 통계리포트가 아니기 때문에 SHAP value에 대해 간략하게만 설명하겠다. Random Forest나 XGBRegressor와 같은 머신러닝 회귀분석을 해보았다면 ‘feature importance’에 대해 들어보았을 것이다. Feature importance는 글자 그대로, 머신러닝 모델링 결과 산출된 feature들 즉, 독립변수들의 중요도 이다. 하지만, feature importance는 상관관계를 기준으로 계산되기 때문에 변수간 상관관계를 형성하는 다중공선성이나 음(-)의 영향력에 대해서는 계산이 불가능하다.
이에 반해, SHAP value는 게임이론을 바탕으로 각 상황(Game)에서 각 feature(player)들의 기여분을 계산하는 방법으로 feature importance의 단점을 보완하였다. 이는 중요도를 알고자 하는 feature를 포함하거나 불포함했을때의 종속변수의 변화의 평균값이 해당 feature의 중요도라는 개념이다. 예를들어 코스피 가격 결정요인으로 나스닥 가격, 채권가격 그리고 유가라는 feature가 있다 한다면, 코스피 가격을 결정하는데 있어서 나스닥 가격의 기여분은 나스닥이외의 feature들이 동일하다는 전제하에 나스닥을 포함할때의 코스피와 포함하지 않았을때의 코스피 가격을 차분하고, 이를 채권가격과 유가에 있어서도 동일하게 적용하는 것이다. 즉, 결과적으로 종속변수 결정요인의 기여분을 알기 위해 독립변수의 유/무에 따른 종속변수의 차분값을 가능한 모든 독립변수의 조합에 대해 계산하는 것이다. 그리고 이 방법을 통해 크립토 가격변동성 중요요인을 파악해보겠다.
비트코인의 SHAP value를 구하기 위해 2012년 2월 2일부터 2021년 8월 5일까지의 on-chain data와 macro data의 일일 가격(index) 변화율을 독립변수로 비트코인 일일 가격 변화율을 종속변수로 XGBRegression로 예측모델링을 시행하였다.
사용 변수로는 매크로 변수인 금, 미국채 10년물 수익률, 미국채 2년물 수익률, 달러인덱스, S&P 500지수, VIX 지수 그리고 유가종합지수(CRB)를 사용하였다. 그리고 비트코인 온체인 데이터는 유동성 관련 지표인 exchange netflow volume, new address, active address, transaction count, transfer volume, circulating supply, coin days destryoed(CDD)이 있고, market관련 지표인 realized cap, MVRV Z를 사용하였다. 그리고 연산/채굴 관련 지표인 difficulty, block interval, hash rate, fees가 있다.
해당 feature들로 비트코인 일일 변동성의 XGBRegressor를 시행하여 SHAP value를 계산한 결과, 아래의 그래프와 같은 original value(x축), SHAP value(y축)의 분포를 확인할 수 있다. 해당 그래프를 통해 original value 각각에 대응되는 SHAP value를 파악할 수 있는데, S&P500, realized cap, active address, CDD 등이 양의 SHAP를 많이 가지는 반면, block interval, DXY 등은 0에 가까운 SHAP 값이 많이 나타났다.
그리고, 해당 결과들의 절대값 평균을 낸 각 feature들의 SHAP value들은 아래의 그래프와 같다. 가장 높은 SHAP value는 장기보유자들의 움직임을 확인할 수 있는 지표인 CDD이고, 채굴의 어려움을 나타내는 지표인 Difficulty 그리고 활성지갑의 수를 나타내는 active address, 평균블록생성시간인 block interval이 뒤따랐다. 이에반해 매크로 지표인 미국 채권, GOLD 등의 지표는 하위권을 차지했다.
CDD가 가장 큰 value를 가지는것은 지난 약 10년에 가까운 시간동안 비트코인 가격 변동성에 가장 큰 영향요인으로 작용한 것은 장기보유자들 즉, 고래들의 움직임으로 해석할 수 있고, difficulty나 block interval, fees와 같은 채굴관련 지표들의 영향을 끼친것으로 보아, 비트코인=>채굴하는 자산=>디지털 금의 인식을 어느정도 뒷받침할 수 있다고 볼 수 있다.
이더리움의 SHAP value를 구하기 위해 2018년 1월 8일부터 2021년 8월 5일까지의 on-chain data와 macro data의 일일 가격(index) 변화율을 독립변수로 비트코인 일일 가격 변화율을 종속변수로 XGBRegression로 예측모델링을 시행하였다.
사용 변수로는 매크로 변수인 금, 미국채 10년물 수익률, 미국채 2년물 수익률, 달러인덱스, S&P 500지수, VIX 지수 그리고 유가종합지수(CRB)를 사용하였다. 그리고 이더리움 온체인 데이터는 유동성 관련 지표인 exchange netflow volume, new address, active address, transaction count, transfer volume, circulating supply, coin days destryoed(CDD)이 있고, market관련 지표인 realized cap, realized price, MVRV Z를 사용하였다. 그리고 연산/채굴 관련 지표인 difficulty, block interval, hash rate, fees가 있다.
해당 feature들로 이더리움 일일 변동성의 XGBRegressor를 시행하여 SHAP value를 계산한 결과, 아래의 그래프와 같은 original value(x축), SHAP value(y축)의 분포를 확인할 수 있다. 해당 그래프를 통해 original value 각각에 대응되는 SHAP value를 파악할 수 있는데, 비트코인보다 상대적으로 퍼짐의 정도가 덜하고, 한쪽에 밀집된 모습을 확인 할 수 있었다.
그리고, 해당 결과들의 절대값 평균을 낸 각 feature들의 SHAP value들은 아래의 그래프와 같다. 가장 높은 SHAP value는 마켓에서 유통의 정도를 확인 할 수 있는 circulating supply이고, 채굴 비용인 fees, 시장참여자들의 코인매수가인 realized price, 네트워크상에서 이동한 코인의 양을 나타내는 transfer volume 등이 뒤따랐다.그리고 비트코인과 마찬가지로 대다수의 매크로 지표들은 하위권을 차지했다.
고래들의 움직임에 민감했던 비트코인에 비해 이더리움은 circulating supply, realized price, transfer volume 등과 같이 시장 전체의 움직임에 더 민감하게 반응했다. 또한 fee와 block interval 등 채굴관련 지표들에도 민감함을 보였는데 이러한 결과는 이더리움의 가치가 시장 이용자들의 활용성에 달려있다는 것을 의미한다. 왜냐하면 이더리움 네트워크는 비트코인과 다르게 대다수 블록체인 프로젝트에 사용되기 때문에 이들의 성과에 따라 그 가치가 판별되므로, 이더리움의 가치=>프로젝트의 활용=>대중화로 연관되어 보다 시장의 움직임에 민감하다고 생각해볼 수 있다.
마지막으로 BTC, USDT, DAI, WBTC, LEO, LTC, CRO, QNT, OKB, KCS, USDP, BAT, ENJ 그리고 ETH의 종합 SHAP value를 구하기 위해 2020년 8월 6일부터 2021년 8월 5일까지의 on-chain data와 macro data의 일일 가격(index) 변화율을 독립변수로 비트코인 일일 가격 변화율을 종속변수로 XGBRegression로 예측모델링을 시행하였다.
사용 변수로는 매크로 변수인 금, 미국채 10년물 수익률, 미국채 2년물 수익률, 달러인덱스, S&P 500지수, VIX 지수 그리고 유가종합지수(CRB)를 사용하였다. 그리고 온체인 데이터는 new address, active address, circulating supply, NVT, transfer volume을 사용하였다. 비트코인과 이더리움을 제외한 알트코인은 온체인데이터를 구하기가 어려워 많은 데이터를 사용할 수 없었다.
그리고 해당 feature들로 각 코인들의 일일 변동성의 XGBRegressor를 시행하여 SHAP value를 계산한 결과, 아래의 표와 같은 결과가 나왔다. 전체적으로 신규주소, 활성주소와 같은 코인의 활성정도관련 지표의 SHAP value는 높은 반면 일부 알트코인의 이동량, 유통량의 SHAP value는 0인것으로 보아 알트코인은 시장의 유동성보다 투기 측면에서의 영향력이 높다고 판단된다. 그리고 해당 지표들을 시가총액 가중치로 두어 종합적인 크립토 SHAP value를 산출하였다.
주소 생성 및 활성관련 지표인 new address, active address가 가장 높게 나왔고 그 외에 온체인 데이터인 circulating supply, 거래총량대비 시가총액 지표인 Network Value to Transaction(NVT)가 중요한 것으로 나타났고 이에 반면 매크로 지표는 달러인덱스를 제외하고 모두 하위권을 차지했다.
물론 데이터 부족의 결과물일수도 있지만 상대적으로 앞선 비트코인과 이더리움과는 다르게 알트코인들을 종합적으로 비추어본 크립토 시장에서의 SHAP value는 시장 유동성과 활성화 정도에 가격변동성이 민감한 것으로 나타났고 전체적으로 매크로보다 온체인 데이터가 가격변동성에 민감함을 알 수 있다.
이렇듯, 온체인 데이터와 매크로 데이터를 통해 코인들의 변동성에 대한 중요도를 살펴보았다. 해당 분석으로써는 온체인 데이터가 상당히 부족하기 때문에 결과물이 대표성을 띈다고 볼 수는 없다. 하지만, SHAP value를 통해 유사한 중요도 ranking을 가지는 코인들을 분류한다던가 등으로 향후 크립토 시장의 밸류에이션이나 ICO등 다양한 방면에서 활용가능한 아이디어가 될것이라 생각한다.