brunch

You can make anything
by writing

C.S.Lewis

by 하리니 Jan 23. 2024

박빙의 승부, 재미와 함께 커지는 이것.

정보 엔트로피

박빙의 승부, 재미와 함께 커지는 이것.

 라이벌 전은 재미있다. 누가 이길지 예측이 어렵기 때문이다. 소위 박빙의 승부라고도 하는, 이런 경기는 사람들의 이목이 집중되기 마련이다. 만약 경기 결과를 두고 내기가 벌어진다면, 아마 승부를 알 수 없는 재미있는 경기일 수록 판돈도 커질 것이다. 그런데, 이 판돈만 커지는 것이 아니라, '엔트로피'도 커진다는 사실. 클로드 샤넌이 정리한 이론에 따르면, 승, 패로 결정되는 승부에서, 한쪽이 이기거나 질 확률이 같을 때 엔트로피, 혹은 무질서함, 혹은 불확실성이 가장 크다.


 클로드 샤넌은 전자공학에서 가장 중요한 업적을 세운 인물 중 한 명으로, 전공자라면 학부 수업 중에 종종 그 이름을 듣게 된다. 클로드 샤넌의 주요 업적은 디지털 회로, 그리고 정보이론의 창시한 것이다(bit라는 단위의 창시자). 개인적으로 이 분의 이름을 들으면 가장 먼저 떠오르는 것은, 샤넌의 채널 용량 공식으로, 이 이론은 무려 1940년대에 정립되었으나 현 수준의 휴대전화 무선 통신 기술이 나아갈 길을 고스란히 밝혀주었다. 추가로, 샤넌은 주식 투자를 잘한 것으로도 유명한데, 그의 평균 복리 수익률은 연 28%로 알려져, 워렌 버핏을 능가한다(주식은 머리로 하는거 맞네).

 

 클로드 샤넌이 제시한 정보 엔트로피는, 특정 정보의 표현에 필요한 리소스를 정량화해 나타내는 것(bit) 이다. 엔트로피가 크다는 것은, 정보 내 불확실함이 많아, 이를 표현할 때 리소스가 많이 필요함을 의미한다. 단적으로, 엔트로피를 커지는 것은, 정보 내 포함될 수 있는 경우의 수가 많아지거나, 각 경우의 수(case)들이 균등한 확률을 가지게 됨을 의미한다. 이는 간단한 예시와, 엔트로피 공식을 같이 보면 쉽게 알 수 있다.


정보 엔트로피 계산 공식. (출처: wikipedia)


위 식에서 fi는 i사건이 일어날 확률이며, ln은 log함수를 의미한다. i사건이 이항푼포(binomial distribution)를 따를 때, 즉 0과 1 혹은 기다 아니다로 결정지어질 수 있는 경우 log2 된다.

 

 동전 하나를 던지는 경우를 예를 들면(동전을 던져서 결과는 항상 앞, 혹은 뒤만 나온다고 가정), 앞 뒷면이 나올 확률이 각 50%, 50%인 매우 공평한(fair) 동전일 수도 있고, 앞 면의 확률이 더 높을 수도 있다. 이 확률 값에 따른 엔트로피 계산 결과는 아래 그래프를 따른다.


앞면일 사건을 X=1, 그 확률은 Pr(X=1)로 표현했으며, 동시에 뒷면은 X=0, 확률은 Pr(X=0)=1-Pr(X=1)

출처: wikipedia

 재미있는 것은, 엔트로피는 앞 면이 나올 확률이 50%(0.5)로, 뒷면이 나올 확률과 같을 때 엔트로피가 가장 크다. 동전 던지기는 두 팀이 싸워 오직 승, 패로 결정되는 시합을 하는 것과 같아, 마찬가지로 승, 패의 확률이 50%로 같은 때 엔트로피가 가장 크다. 6면 주사위를 굴릴 때의 엔트로피 또한 위 식을 통해 계산할 수 있으며, 그 결과 또한, 각 사건의 확률이 균등할 때(각 면이 나올 확률이 모두 같을 때) 엔트로피가 가장 크다.  

 



 정보 엔트로피를 처음 배울 때는 이해하가 매우 어려웠다(지금도 그렇다). 단적으로는, 그저 정보를 표현하기 위한 용량 쯤으로 이해하고 넘어갈 수 있으나, 엔트로피가 내포하고 있는, 행간의 의미를 완전히 아는 것은 어렵다. 


 학부에서, 통신 이론 수업을 들으며 이 개념을 배웠을 때 순간 엔트로피가 무엇인지 약간이나마 감을 잡은 순간이 있었다. 친구가 내 물건을 가지고 도망치는 장난을 쳤을 때인데, 그 친구가 결국 나에게 물건을 다시 돌려줄 확률이 그렇지 않을 확률보다 훨씬 높기 때문에, 불확실성은 낮다. 즉 엔트로피가 낮다. 처음에 그 친구를 쫓아 달려가다가 순간, 엔트로피가 낮음을 깨닫고 멈추게 되었다. 이런 점에서는 엔트로피는 그 장난이 가지는 당혹감, 긴장감, 혹은 재미와 비례할지도 모른다고 느꼈다.

 

 열역학 제2법칙인 '엔트로피 증가 법칙'의 그 엔트로피는 정보 엔트로피의 기원인데, 그렇다면 정보 엔트로피 역시 시간이 흐름에 따라 증가할것인가. 모르긴 해도, 최근의 세상을 보면 불확실성이 점점 증가하는 것 같다. 예전에 국룰처럼 따르던 생활양식 또한 힘을 잃어, 선택할 거리는 점점 늘고(경우의 수 증가), 각 선택의 결과 예상이 어렵고(균등한 확률), 그리고 이례적인 일도, 이상 기후도 늘고 있다. 엔트로피가 점점 커지고 있는 것 같다. 어쩐지 요즘 뭐 하나도 선택이 어렵고 불확실해서 답답할 때가 많은데.. 이게 다 엔트로피 너 때문이었니..?


 엔트로피가 커지는 것은 불확실함, 혹은 무질서함의 증가로, 주로 부정적으로 와닿지만 이는 적용 대상에 따라 좋고 싫음이 달라질 수 있다. 생물 다양성, 혹은 유전 다양성 측면에서는, 엔트로피는 다양성을 의미해 각족 질병에 대한 robustness로 이해할 수도 있겠으니 말이다. 또한, 몇 AI 연구자들은 AI 모델 내 일부 동작이 확률적으로 발생하게 하는, randomness를 학습 과정에 부여해 추론 성능을 올리는 방법을 오래 전부터 써왔다. 어찌 보면 더 큰 엔트로피에서 공부를 하는 것이 실전에 도움이 되는 것인가 싶어 흥미롭다. 물론, 하드웨어를 개발하는 사람들은 엔트로피가 커지면 데이터를 표현, 처리, 저장하는 데 드는 리소스가 커지기 때문에 반가울 것이 별로 없기도 하다. 

 


 

 돌이켜보면, 엔트로피를 공부하던 학생 때는 그저 공부만 하면 되니 나름 편했는지도 모르겠다. 지금은 삶이 한 층 더 복잡해져서 고민해야 되는 것이 더 많아진 것 같고, 가끔 버거울 때가 있다(그리고 10년 뒤엔 지금이 좋았다고 하겠지). 어쩌면 내 인생의 엔트로피가 자연스럽게 점점 커지고 있는 것이겠거니 조금은 위안이 된다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari