brunch

You can make anything
by writing

C.S.Lewis

by 안영회 습작 Sep 06. 2021

코호트란 무엇인가?

뉴스를 빠르고 유익하게 소비하기 No.  28

스타트업 대표에 어울리는(?) <린 분석>을 읽는데, 코호트란 표현을 잘 몰라 검색했다. 그리고, 이왕 검색하는 김에 풍부하게 용례를 파악해두자는 의도로 글을 쓴다.


코호트 격리

검색 결과 중에서 가장 먼저 선택한 기사가 Sciencetimes의 '코호트란 무엇인가?'인 탓에 생소한 표현부터 살폈다.

통계학에서 쓰는 용어인 코호트는 ‘공통적인 특성을 가진 사람들의 집단’을 뜻한다. 이 병원이 하룻밤 코호트 격리가 되었다는 말은 다른 환자들, 보호자들, 의료진들, 직원들 모두 코로나19를 일으키는 원인 병원체인  SARS-CoV-2에 노출된 것으로 간주하고 병원을 통째로 폐쇄했다는 말이다. 2015년 메르스 유행 때 전국에서 10여개의 병원이 14일간 코호트 격리된 적이 있다.

기사는 코호트의 어원으로 나를 이끈다.

코호트 연구란 명칭은 1935년에 있었던 출생 시기에 따른(세대별) 질병 발병률 비교 연구에 처음 등장했다. 코호트(cohort)의 어원은 라틴어로 ‘울타리’를 뜻하는 cohortem이고 중세 프랑스어로 군대 단위인 ‘소대’를 뜻하는 cohorte를 거쳐 오늘에 이른다.

울타리와 소대가 기원이란다. 하지만, 분석의 단위를 구분하는 기준이 특성이라면 너무 포괄적이라 쓸모가 없어 보인다. 영어사전을 찾아보자.


통계 목적의 특성 그룹

콜린스 웹에 따르면 코호트는 친구나 지지자 혹은 동료를 뜻한다.

A person's cohorts are their friendssupporters, or associates.

사람을 중심에 놓고 관계를 설명할 때의 쓰임이다. 사람이 아닌 경우 콜린스 설명은 이렇다.

A cohort of people is a group who have something in common. Cohort is used especially when a group is being looked at as a whole for statistical purposes.

기사와 같이 특성(have something in common)을 공유하는 집단이다. 다만, 통계 목적에 주로 쓰인다는 유용한 단서를 제공한다. 


사전의 끝장판인 위키피디아를 보자. 역시나 후덜덜이다. 10개의 표제어가 있다.

Cohort (educational group), a group of students working together through the same academic curriculum

Cohort (floating point), a set of different encodings of the same numerical value

Cohort (military unit), the basic tactical unit of a Roman legion

Cohort (statistics), a group of subjects with a common defining characteristic, for example age group

Cohort (taxonomy), in biology, one of the taxonomic ranks

Cohort study, a form of longitudinal study used in medicine and social science

Cohort analysis, a subset of behavioral analytics that takes the data from a given data set

Cohort Studios, a video game development company

Generational cohort, an aggregation of individuals who experience the same event within the same time interval

"Cohort", a disc golf putter by Infinite Discs

어디까지 볼 것인가? Cohort (statistics)와 Cohort analysis 두 개를 보기로 하자. 


기간을 전제하는 코호트 분석

빠르게 파악하려는 조바심에 영문이 정독이 힘들었다. 다행히 (그런 스스로를 다그치지 않아도) 탈출구가 있었다. 아래 내용이다.

Demography often contrasts cohort perspectives and period perspectives

그리고 위키피디아 상단의 그림(아래 그림)에서 눈에 띈 단어인 Case control을 단서로 검색을 했다. 학창 시절 실험하면 듣던 단어가 통제군(case control)이닌가?

그래서, 코호트 연구와 환자-대조군 연구(Case-control study)를 비교하는 글이었다. 해당 글에서 도식화 한 그림을 잘 보면 분석 스키마는 거의 똑같은데, 단 하나 차이가 있었다. 

위 블로그 내용을 보며 '코호트가 뭐야?' 라는 질문으로 몰입을 했더니 굳이 Cohort analysis 페이지는 볼 필요가 없고, 보고 싶지 않았다.


코호트 분석 vs. A/B 테스트

그리고, 책에 이런 내용이 나온다. 데이터 분석에 필요한 지식만 추리면, 대표적 횡단적 연구가 A/B 테스트란 점을 알면 된다.

코호트 분석은 종단적 연구longitudinal studies라고 부른다. <중략> 반대로 테스트 대상인 그룹들에게 동시에 서로 다른 경험을 하게 하는 조사를 횡단적 연구cross-sectional studies라고 부른다.

그러나, 내 질문은 '왜 종단인가?' 였다. 종단적 연구를 구글링 하면 자료가 있었지만, 위키백과에는 설명이 없어 영문 위키피디아를 택하기로 했다. 코호트 분석과 설명이 비슷하다. 공통점을 찾자면, <린 분석> 책에 나온대로 시간을 두고 비슷한 그룹을 비교하는 것이다.

A longitudinal study (or longitudinal survey, or panel study) is a research design that involves repeated observations of the same variables (e.g., people) over short or long periods of time (i.e., uses longitudinal data).

근데 왜 longitudinal이란 단어일까?

Longitudinal is a geometric term of location 

콜린스에 물으니 힌트를 준다.

A longitudinal line or structure goes from one end of an object to the other rather than across it from side to side.

앞서 봤던 '횡단적cross-sectional' 이란 표현과 비슷한 across ... 표현이 나오고, rather라는 접속사가 나온다. 넘나들지 않고 처음부터 끝까지(goes from one end of an object) 선형으로 된 구조란 뜻이군. 그렇다면, 위도와 경도 배울 때 익힌 영어 단어랑 잘 이어진다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari