집합과 명제 이용한 데이터분석 론
"근본적 한계에 대한 단상"으로 글을 적는건 무척 오랫만인 것 같다. 마지막에 적었던 이야기가 작년 8월이었으니, 거의 6개월만에 이 제목으로 글을 적는다. 글을 시작하기전에 오늘 써 내려갈 글은 여러분들의 수학적 능력을 필요로 한다. 그렇다고, 대단한걸 요구하는건 아니고, 딱 "집합과명제" 수준만 있으면 이해가 가능할 것이다. 혹시라도, 집합과 명제에 대한 공부를 속성으로 하고 싶다면, 이 글타래의 최초에 적었던 두 글을 참조 하시라.
https://brunch.co.kr/@amangkim/6
https://brunch.co.kr/@amangkim/7
여러분들이 기초적인 수학지식이 있다고 가정하고 글을 이어 가도록 하겠다. 오늘의 주제는 사실과 거짓, 그리고, 진실과 거짓에 관한 이야기 이다.
사실(Fact)은 존재(Exsistance)에 관한 이야기 이다. 이게 무슨 말이냐 하면, 상황이나 위치에 따라 변하지 않는 존재를 의미 한다. 어떠한 현상이 존재로 확인이 되었다면, 이런 사실은 절대로 변하지 않는다는 거다. 예를 들자면, 이런거다.
[s0: -- 서술(혹은 문장) 번호 ]
s1: 2차 세계대전이 일어남.
s2: 인간의 죽음.
s3: 내가 지금 글을 적고 있는 것.
...
어떤 환경이나 시간적인 변화에 관계 없이 존재하는 것. 이런 측면에서 "절대적(Absolute)"한 사실(Fact)은 생각보다 한정적이다. 심지어, 우리가 사실이라고 생각하는 것도 시간이 지남에 따라 더 이상 사실이 아닐 수가 있다. 엄밀하게, 말하면 위의 문장들은 "사실"이 아니라, 사실(Fact)에 대한 서술(혹은 문장, Statement)이다. 해당 사실을 직접 경험하지 않는 이상은 어떠한 사실에 대해서 서술을 통해서 밖에 인지 할 수 밖에 없다(이에 대한 내용은 이후에 다루겠다). 그리고, 우리는 사실에 대한 서술이 진실(True)임을 증명하기 위해 "증거(evidence)"를 제시 한다. 거짓(Lie)는 사실의 반대(Not) 되는 개념이다. 즉, 거짓(Lie)은 사실인 것을 부정하는 것. 그것이 바로 거짓(Lie)이다.
위에서 몇가지 언급했지만, 사실(Fact)과 거짓(Lie)에 대한 특징을 정리하면 다음과 같다.
f1: 절대적인(absolute)한 사실(fact)을 서술한 문장(statement)은 진실(True)이다.
f2: 서술(statement)자체가 사실(fact)의 존재 여부를 결정 짓지는 않는다.
f3: 우리가 인지하고 있는 대부분은 사실(fact) 자체가 아니라, 사실의 서술(statement of fact)이고,
f4: 이에 대한 판단은 진실(true)과 거짓(false) 혹은 미정(unknown)으로만 선택 할 수 있다.
f5: 사실의 서술이 진실(true)로 판단(확인) 될 경우, 우리는 그 서술된 사실을 사실로 인지 한다. -- 논리적 인지
f6: 사실의 (존재) 여부를 서술 없이 직접 알 수 있는 방법은 자신이 직접 경험하는 방법밖에 없다.
f7: 단, 이 경우라도 경험에 대한 당신의 "인지"가 정확한 경우에만 해당 한다.
f8: (행위를) 한것이 "사실(fact)"이라면, (행위를) 하지 않는 것이 거짓(lie)이다.
f9: 하지 않은 것이 "사실(fact)"이라면, 한 것이 "거짓"이 된다.
f10: fact/lie에서는"대체로" 혹은 "상황에 따라서"의 개념이 존재하지 않는다.
사람들이 가장 흔히 하는 착각들 가운데 하나가 사실(Fact)과 진실(True)를 혼동한다는 것이다. 위에서도 언급 했지만, 사실(fact)과 진실(true)는 그 의미가 다르다. 진실은 사실과 달리 상황이나 시간에 따라 변할 수 있다. 가장 대표적인 것이 자연 과학이다. 다음 서술을 보자.
s4: 지구는 움직이지 않는다 (천동설).
갈릴레오 이후 인공위성과 같은 정확한 측량 기술이 개발 되기전 s4는 "사실"로 알려진 서술이다. 하지만, 지금은 더이상 s4는 사실이 아니다. 그럼에도 불구하고, s4는 여전히 (대체로) 진실(true)로 받아 들여진다. 다른 예는 또 있다. 자연현상에서 "법칙"은 사실을 서술한 문장이고, 적어도 사실을 서술한 문장이 사실(true)을 증명 한 것들이다. 그렇기에 과학에서 "법칙"은 "사실"로 받아들여진다. 이에 반해 "이론(Theory)"은 그 서술이 진실이긴 하지만, (절대적인) 사실(fact)은 아니다. 그럼에도 (이론이 나올 당시) 사실에 가깝긴 했지만 절대적이라는 증거가 없었기(혹은 부족)에 법칙이 아니라, 이론이 된 것이다. 다들 알겠지만, 힘의 이론
s5: F=ma
은 양자역학이 나오기전까지 "(절대적인) 사실"로 알려졌던 이론이다. 하지만, 양자역학 이후, 이 이론은 더 이상 "사실"이 아닌 이론이 되었다. 그럼에도 불구하고 [s5]는 여전히 진실(true)이다. 적어도 해당 이론이 만들어진 그 당시에는 말이다. 이에 대한 내용은 이후에 따로 언급 하도록 하겠다. 그리고, 사실과 진실은 이를 확인하는 방법에서 가장 큰 차이를 나타내는데, 그것은 바로
사실(fact)을 확인 하기 위해서는 증거(evidence)를 찾고,
진실(true)을 확인 하기 위해서는 증명(proof)을 한다
는 점이다.
True가 아닌 것, not true가 바로 false이다. 한글로 번역하면 false 또한 거짓으로 번역이 되기에 많은 이들이 헷갈려 하고, 이러한 헷갈림으로 인해 많은 사람들이 쉽게 속아 넘어 가는 것이다. 이 장부터는 혼선을 줄이기 위해 진실이라는 단어 다신 "참" 혹은 "참-거짓(false)"이라고 하도록 하겠다. 참(True)은 다음과 같은 특징을 가지고 있다.
t1: 서술(statement)이 참(true)이라도, 사실(fact)이 아닐 수 있다.
t2: 문장이 (절대적인) 사실(fact)을 서술한 것이라면, 그 서술은 항상 참(true)이다.
t3: 항상 참인 서술은 사실(fact)이다.
t4: 문장이 (절대적인) 거짓(lie)를 서술한 것이라면, 그 서술은 항상 거짓(false)이다.
t5: 항상 거짓인 서술은 거짓(lie)이다.
t6: 서술(statement)은 단순한 사실의 서술들이 여러 형태로 합쳐 질 수 있으며,
t7: 이 서술의 참/거짓여부는 "수학적인 명제 규칙"을 따른다.
t8: 논리적 명제와 수학적 명제의 차이는 "unknown"에 대한 처리 부분이다.
t9: 인간사에서의 서술은 "감정"의 영역을 포함한다.
t10: [deleted]
t11: true/false는 "대체로" 혹은 "상황에 따라서"의 개념이 존재한다.
t12: 서술이 t11의 개념을 포함 할 경우,Unknown 명제가 된다.
다음 문장을 보자.
s6: 2차 세계대전은 1970년에 일어났다.
그리고, 다음 질문에 대답 해보라.
s6은 사실인가?
s6은 진실인가?
s6은 거짓인가?
사실, 수학적인 명제와 논리적인 명제의 구분은 내가 만든 말이다. 실제 누군가 연구를 했을지는 모르겠지만, 여기서는 그냥 내가 가지고 있는 생각으로 그 의미를 부여 하도록 한다. 수학적인 명제는 우리가 배우는 "집합과 명제"에 나오는 그 명제를 의미 한다. 즉, 수학에서 언급 된 법칙을 따른다. 논리적인 명제 또한 기본적인 법칙들은 수학적인 명제를 따른다. 하지만, 여기에 알수없음(unknown)의 개념이 포함 된다. 이러한 차이가 생기된 근본적인 원인은 서술의 내용에 있다. 기본적으로 수학에서의 명제는 수학적 서술(statement)만을 다루도록 설계가 되어 있다. 그렇기에 수학적인 서술은 그 진실여부가 판단 가능하다. 바꿔 말해, 진실의 여부(true/false)를 판단 할 수 없다면, 서술 자체가 성립하지 않는다. 하지만, 사회현상에서의 서술은 사실 여부를 판단하지 못하는 경우도 존재 한다. 그리고, 이러한 unknown의 개념은
데이터과학을 전공하는 이들이 인사이트(insight)를 판단 하는데 있어서 매우 중요한 개념
이다. 다시, s6에 관한 질문들로 돌아가보자. 우선 s6은 한개의 문장이지만, 두개의 서술로 되어 있다. 즉, s6이 진실이 되기 위해서는 두개의 서술 즉,
s7: 2차 세계대전이 일어났다
s8: 1970년에 일어났다
모두가 진실이어야 한다. 그리고 두개의 서술은 AND(집합과 명제에서 말하는)의 형태로 묶여 있다. s6가 참(혹은 진실)이 되기 위해서는 s7도 진실이 되어야 하고, s8도 진실이 되어야 한다. 다들 알다 시피 s7는 s5과 같으므로 참. s8은 거짓(참고로, 2차 세계대전은 1939년에 일어남). 따라서, s6는 "거짓"이 된다. s6를 구성하고 있는 s7, s8의 참-거짓 여부가 명확하다면, s6와 같은 서술(혹은 명제)의 판단은 수학적 방법을 이용 할 수 있다.
그런데, 만약 당신이 2차 세계 대전이 언제 일어 났는지 모른다면 어떻게 되는가? 알수 있는 방법이 없다면 말이다. 이에 대한 답을 위해서 "알수없음"이라는 개념이 존재 하는 것이다. 이게 무슨 말이냐 하면, 만약 s8의 참-거짓 여부를 확인 할 수 없다면, 수학적으로는 문제 자체가 성립하지 않는다. 하지만, 데이터 분석에서는 이러한 경우(즉, 진실을 증명하기 위한 근거명제의 참-거짓 여부가 확실하지 않은 경우)가 비일 비재 하다. 어쨋든, s8은 논리적인 명제에서는 unknown이다. 그리고, unknown을 근거로 만들어진 서술 또한 unknown이다.
unkown은 명제에서 joker와 같은 존재
로 보면 이해가 편할 것이다.
위에도 언급 했지만, 어떤 서술이 진실인지 확인 하는 방법이 바로 "증명(proof)"이다. 어떤 서술이 진실인지 참인지 증명하는 방법은 집합과명제 단원에 나오는 증명 방법과 크게 다르지 않다. 다들 아시다 시피,
어떤 명제(혹은 서술, statement)이 참인 것을 증명하는 것보다는 거짓인 것을 증명하는 것은 훨씬 쉽다.
그 이유에 대해서는 집합과 명제를 참고 하시라. 그렇기에, 당신이 서술이 논리적으로 진실인 것을 증명하는 것보다는 누군의 서술이 참이 아닌 것을 증명하는 것이 훨씬 쉽다. 여기서 한가지 첨언 하지만, 수학적 명제에서는 참이 아닌(not) 것는 거짓(false)이지만, 논리적 명제에서는 참이 아니는 것은 거짓"만"이 아니다. "알수없음" 도 포함이 된다. 즉, 상대가 주장하는 서술이 진실이 아님을 증명하는 방법은 상대의 서술(statement)이
false 혹은(or) unknown
임을 증명하는 것이다.
다시 s4를 보자. 서술 s4는 참인가? 거짓인가? 위에서 언급 했지만, s4는 "대체로" 참이라고 이야기 했다. 이해를 돕기 위해서 s4를 조금 변형 시켜 보자
s9: 지구는 "완전한" 구의 형태를 가진다
s9는 거짓(false)이다 (t4참조). 왜냐하면, 지구는 완전한 구의 형태라는 것이 거짓(lie)이기 때문이다. 하지만, s4는 어떤가? 수학을 떠나 직관으로 생각하면, s4는 진실일 수도 있고, 거짓(false)일 수도 있다. 문제는 바로 "둥글다"를 어떻게 정의하느냐에 따라 달라지기 때문이다. 수학적으로 봤을 때는 s4는 명제 자체가 성립하지 않는다. 하지만 (저자가 말하는) 논리적으로 봤을 때는 s4는 unknown인 서술이 되는 것이다. 그리고, 어떠한 서술을 "알수없음"으로 만드는 것이 바로 "대체로"가 되시겠다. 그리고, 이 "대체로"의 일반적인 명칭이 "논란의 여지"이다.
다시 s4로 돌아가자.
s4: 지구는 대체로 둥글다. ["unkwown" 명제]
s10: 명제(혹은 서술) s4는 참(true)이다.
명제 s4는 "대체로"가 포함이 되어 있어, 알수 없음이다. 하지만, 이를 참(True)이라고 언급한 s10는 false인 동시에 (절대적인) 거짓말(lie)가 된다 [t5]. 그리고, 이렇게 만들어진 복합 서술은 논리적 명제 규칙에서는
t13: 알수없음 명제(s4)의 true-false 판단의 서술은 (항상) 거짓(false)이다.
이 된다. 참고로, 수학적인 명제 규칙에서는 s4에 따라 참-거짓이 변할 수 있기에 명제 자체가 성립하지 않는다. 다음 기사를 보자
https://n.news.naver.com/article/009/0004523371
위의 제목을 명제 형태로 서술 하면 다음과 같이 할 수 있을 것이다.
s11: 마카오 한국인 입국자 8시간 검역 (따라서,) 이동제한 논란
그리고, s11는 다음과 같이
s12: 한국인 입국자 8시간 검역
s13: 이동제한 논란
따라서, s11 은 다음과 같이 수학적으로 기술이 가능하다.
s11: s12 → 13
s12는 s13의 근거(cause)서술이고, s11는 근거와 결과로 이루어진 복합서술이다. 그리고, 다음 명제(서술)를 추가 하자.
s14: s11는 (항상) 참(True)이다.
참고로, 여러분이 해당 기사를 읽고 s14처럼 받아 들이는 순간(혹은 인정), 해당 서술에 대해
당신이 받아 들인 것은 거짓(lie)은 거짓이 된다.
무조건!
사실 집합과 명제에 대한 이야기는 "근본적 한계에 대한 단상"의 시작을 했던 내용이다. 그리고, 집합과 명제를 제대로만 이해하고 있으면, 많은 사람들이 논쟁하는 세상의 맞고 틀림의 문제를 명확하게 정리가 가능하다. 물론, 그걸 받아 들이고 말고는 개인의 문제(보다 고상한 말로는 인식의 문제)이다. 아무리 논리적으로 진실(true)을 이야기 해도 받아들이지 못하는 이들이 있으니 말이다. 이번 글과 몇개의 글들
거짓말의 단계 와 (죄)질
근거-결과 명제
을 마치고 나면, 실질적인 데이터(정확하게는 쏟아지는 미디어 기사들 속의 데이터)를 가지고어떤 식으로 접근하고 바라봐야 하는지에 대한 이야기들을 풀어 가도록 하겠다. 대략적으로 생각나는 제목들을 정리 해보면 다음과 같다.
논쟁을 잘한다고 착각하는 부류
논쟁을 멈춰야 할 때
거짓에서 진실을 찾는 법
"완전"과 "항상"의 무게
문제에서 감정을 배제 해야 하는 이유
기자들이 기레기일수 밖에 없는 이유
데이터를 믿지 말아야 하는 이유
사실을 파악할 때 감동 배제해야 하는 이유
....
제목들이 구미가 당기는가?
그리고, 또 하나, 나의 생각을 표현하는데 있어서 오래전부터 생각해오던 것이 있었는데, 이번에 그에 대해 자그마한 실험을 해볼까 한다. 잘 될지는 모르겠지만 말이다.
[끝]
https://www.youtube.com/playlist?list=PLccQ032haxCo16JxOtb-VQbydzDlNqQSy