feat. LLM
*MCMC: Markov Chain Monte Carlo
*LLM: Large Language Model
내가 하는 업무와 관련해 논문을 읽다보면 깁스 샘플링, MCMC샘플링이 제목에 포함된 논문을 많이 접하게 되었다. 무슨 연유에서였을까. MCMC를 만날때면 늘 반가우면서도 무슨 의미인줄 몰라 두려워했다. 그래서 해당 논문을 읽어보려하다가도 주저주저했었다.
방송대 베이즈 데이터 분석 수업을 듣는데 MCMC에 대해 아주 명료한 설명을 들을 수 있었다. 그래서 오래오래 기억에 남기고 싶었다. 그리고 다음에 MCMC를 담은 논문을 만났을 때 두려워하지 않도록.
우선 Markov Chain에 대해 알아야 한다.
마르코프 체인이란 어떤 특정 시점 t의 값이 직전 값에만 의존하는 확률변수들의 수열이다.
그리고 직전 값이 주어졌을 때 현재 값의 분포를 마르코프 체인의 커널(Kernel), 전이핵이라고 한다.
그러므로 커널이라는 단어가 논문에 나왔을 때 리눅스 커널이나 다른 의미등으로 해석해서는 안된다. 해당 분야 용어에 대해서는 잘 숙지하고 있어야 한다. 논문을 엉뚱하게 이해하지 않으려면 말이다.
몬테카를로 방법이란 iid 방법으로 확률변수, 랜덤넘버를 생성해서 적분을 근사하는 방법을 이야기한다. 예를 들어 원을 4개로 쪼갠 뒤 1사분면에 있는 4분위원에 점을 랜덤으로 찍었을 때 원안에 속하는 갯수를 통해 원의 1/4 넓이를 구할 수 있다.
드디어 MCMC에 대해 정리해 볼 수 있다.
마르코프 체인 몬테 카를로(MCMC: Markov Chain Monte Carlo) 방법이란, iid대신 마르코프 체인을 생성해서 적분을 근사하는 방법을 MCMC라고 한다.
깁스 추출법은 다차원 확률변수를 추출하는 방법이다.
다차원 확률변수를 추출하는 방법이 따로 필요했던 이유는 차원이 늘어날수록 1차원 확률변수를 추출할 때 사용하는 합격불합격방법을 사용해서는 차원이 늘어날수록 추출된 샘플의 합격률이 급격하게 낮아지기 때문에 샘플링의 효율성이 현저하게 낮아지기 때문이다.
곱씹어볼 요점
사후표본의 표본평균은 사후분포의 기대값을 근사하고,
사후표본의 표본분위수는 사후분포의 분위수를 근사한다.
방송대 출석수업을 들으며 LLM을 통계공부에 활용하는 법에 대해 배웠다. 그래서 베이즈 강의에서 들었던 내용에 대해 perplexity.ai를 사용해 물어보았다.
놀라웠다. 하지만 내가 느낀점은 내가 강의를 듣지 않고 이 설명만 보았다면 난 이해하지 못했을거 같다라는 생각이 들었다. 그렇지만 교수님 강의를 들으며 강조했던 부분을 비교하며 보니 훌륭한 요약이라는 생각이 들었다.
사실 충격을 받았던 부분은 다음과 같다.
수리통계학에서 증명하는 문제의 경우 LLM에서 생각보다 아주 훌륭한 답변을 해 준다는 것이다. 그리고 chatGPT의 경우는 이미지를 캡쳐해서 업로드가 바로 가능하며 그 질문에 대한 답변을 바로 해 준다. Perplexity의 경우에도 pro를 쓰면 답변을 해 준다. 그래서 둘을 사용해 아래 질문에 대한 답변을 비교해 보았다.
질문) 동일한 Poisson 분포를 따르는 n개의 확률변수가 독립일 때, n개의 확률변수를 합한 확률변수의 확률분포는 무엇을 따르는지 증명하는 문제에 대해 물어보았다.
아무튼 이번 달은 perplexity pro를 써보기로 했다. 아직은 perplexity.ai 기본 버젼과 pro버젼의 차이를 실감하지 못하고 있지만 이는 내가 아직 사용법이 익숙지 않기 때문일 것이라 생각하고 있다. 사용법이 익숙해져 잘 활용해 내 실생활과 목표를 이루는데 도움이 되기를 바래본다.
화이팅!
끝.