텍스트 마이닝이 주는 사전 탐색의 인사이트

HITL(Human-in-the-Loop)의 데이터 솔루션 기획 (3)

by 빛날수있게


지난 글에서 분석 목적을 찾기 위한 사전 탐색을 위해


반려묘를 기르는 집사들의 고민이 무엇인지 알 수 있는

사전 샘플의 원천 소스 스크래핑과

아주 간단한 수준의 전처리를 진행했습니다.


특히 원천 데이터에 없는 칼럼인 카테고리의 경우에는 AI 툴인 제미나이를 활용해

간단하게 1차 분류를 마쳤습니다만,


AI를 활용할 때의 주의점은 사람이 꼭 다시 검토자 혹은 검수자의 입장에서

체크를 해봐야 한다는 점에 있습니다.


AI를 활용하는 방법을 한 번 차근히 한번 보도록 하겠습니다.


최근 AI 활용도가 급격하게 늘어나면서 거의 모든 일(직무 뿐만 아니라 일상)에

AI를 무비판적으로 사용하시는 분들이 많습니다.


그런데 아무런 검토 없이 AI가 주는 정보를 그대로 사용하게 되면,

현존 AI 툴은 언어 모델의 한계가 있기 때문에 그럴싸 해보이지만 거짓말인

'속빈 강정'(할루시네이션)의 결과를 얻기가 쉽습니다.

(나아가 아주 잘못된 정보를 좋은 결과처럼 올리기도 합니다. 저도 자주 당했었..)


탐색적 데이터 분석 (Exploratory Data Anlaysis)은

다음의 내용을 포함하여 진행하였습니다.


1. 데이터의 형태와 척도가 분석에 알맞게 되어 있는지 확인한다.

2. 데이터의 평균, 분산, 분포, 패턴 등의 확인을 통해 데이터 특성을 파악한다.

3. 데이터의 결측값이나 이상치 파악 및 보완을 한다.

4. 변수 간의 관계성을 파악한다.

5. 분석 목적과 방향성을 점검 및 보정한다.





EDA - STEP 1 :


1. 데이터의 형태와 척도가 분석에 알맞게 되어 있는지 확인한다.

+ 3. 데이터의 결측값이나 이상치 파악 및 보완을 한다.

(+ AI를 활용해서 데이터 전처리를 쉽게 하는 방법)


먼저 현재 데이터 셋은 '작성일/답변수/제목' 그리고 AI 가분류에 따른 '카테고리'

네가지 변수로 구성되어 있습니다.


스크린샷 2025-12-31 오전 11.10.44.png 노이즈 혹은 불필요하다고 생각되는 데이터를 제거한 데이터 표본 367개


스크래핑 방식으로 데이터를 수집한터라, 데이터의 결측값은 없으니 넘어가도록 하고,

이 데이터 셋은 '제목'으로 되어 있는 질문의 내용들이 핵심 정보이기 때문에

이상치를 '제목'을 통해 걸러내기 위해 이전 글에서 했던 것처럼 정성 검토가 필요한데요,


'제목'의 파생 변수인 '카테고리'로 간단히 살펴보았습니다.

특히 '카테고리'의 경우 제가 직접 세운 기준이 아니고, AI가 세운 기준이기 때문에

척도가 분석에 알맞게 되어 있는지 살펴볼 필요가 있습니다.


다음은 AI가 가분류해준 파생 변수 '카테고리'의 정의와 기준입니다.


데이터 분석에서 원천 데이터를 통해 인사이트가 담긴 파생 변수를 만드는 것은

매우 중요한 어렵고도 중요한 사람의 일이었지만, 이렇게

AI는 데이터를 받자마자 자동으로, 가장 중요한 키 변수를 짚어내고,

파생 변수 생성까지 알아서 처리해줍니다.


거듭 말하지만 이것을 검토하고 다시 한번 선별하는 것은 여전히 중요한 사람의 일입니다.

더불어 자신의 데이터 분석 (혹은 어떤 작업이든) 목적을 가장 잘 아는 것은 AI가 아니고, 바로 자신입니다.


이것이 주목적의 데이터 분석이라면 데이터 북(단어사전)이나 정의서를 만들어야 겠지만,

지금은 간단한 사전 조사 단계이므로 생략합니다.


스크린샷 2025-12-31 오전 10.13.36.png AI가 세워준 분류의 기준을 다시 체크했습니다. AI 활용에서는 집요하다 싶을 정도로 비판적인 관점을 취하고 재검토하는 것이 필요합니다.



저는 이렇게 표기를 했습니다, 초록색 마킹은 AI의 의견에서 좋다고 보여지는 부분, 붉은색은 틀린 내용,

파란색은 가장 중요한, 고민이 필요하다고 여겨지는 부분입니다.


일단 초록색으로 마킹한 부분은 6.의 기타는 노이즈 값이고, 3.의 일반/양육의 경우에는

기본 정보들은 검색만 해도 알 수 있는 것이기 때문에,

다소 장기간 동안 공을 들여 관리 데이터를 입력해야 하는 제 솔루션의 수요와는 맞지 않다고 생각해

데이터 셋에서 제거하기로 결정했습니다.


건강/질병과 행동/심리의 영역은 다소 생각이 필요한 지점으로 보입니다.

분류 기준으로 제미나이는 '긴급성'이라는 점을 짚었습니다.

그러나 저는 건강/질병의 생리현상(배변/구토)의 경우 집사에 따라

병원에 긴급하게 가지 않는 경우도 있을 것이라 생각했습니다.


이는 사실 제 집사 경험으로 인해 알게 된 매우 정성적인 인사이트입니다만,

건강한 고양이의 경우 단순 1~2회의 이상 증상 발생만으로 병원에 가는 것은 매우 비효율적입니다.

고양이는 영역 동물이여서 병원 방문만으로도 매우 큰 스트레스를 받을 수 있고,

질병 판단의 주요 기준이 반복성, 지속성에 있기 때문입니다. (예민하고 까다로워 주인님..)


또 반대로는 행동/심리 영역의 '발톱깍기'의 경우

고양이를 다루는 것이 서툰 경우나 고양이가 너무 예민한 경우

집에서 해결하지 못하고, 의외로 병원을 찾는 경우도 많습니다.


또한, 소분류 4. 사료/영양의 식욕 부진의 경우

또다른 정보와 함께 결합된다면 (밥도 안먹는데, 배변에도 문제가 있다면?)

1.의 건강/질병으로 함께 분류될 수 있는 문제이기 때문에 이 기준도 다소 모호하게 느껴졌습니다.


이처럼 데이터를 이해하는 일에는 매우 실무적이고 도메인과 직접 관련된 지식이 필요합니다.


저는 이 과정을 통해 3.과 6.의 분류에 해당되는 데이터 값만을 사용하지 않기로 결정했습니다.

(이것만으로도 매우 효과적인 진전입니다.)



EDA - STEP 2 :


2. 데이터의 평균, 분산, 분포, 패턴 등의 확인을 통해 데이터 특성을 파악한다.


데이터 분석의 두 번째 단계는 수집된 데이터의 기초 체력을 확인하는 것입니다.

평균, 분산, 분포 등을 통해 데이터가 어떤 성격을 띠고 있는지 파악해야 합니다.

이는 수치형 변수로는 주로 '기술통계'라 불리는 부분입니다.


먼저 제가 가진 데이터 셋을 변수의 종류로 구분해보면,

'작성일/답변수' : 수치형 변수 *작성일은 시계열

'제목/카테고리' : 명목형 변수 입니다.


일반적인 통계 분석(키, 몸무게 등)에서는 '평균'과 '분산'이 가장 중요한 지표가 됩니다.

하지만 이번 프로젝트의 핵심인 제목과 카테고리는 명목형 변수, 즉 범주형 데이터에 해당합니다.


그래서 Step 2를 최빈값에 대한 빈도 분석을 중심으로 진행하고,

답변수에 따른 기술 통계와 날짜에 따른 시계열 패턴을 부가적으로 하기로 하였습니다.



(1) '제목' 칼럼에 대한 텍스트 마이닝 (빈도 분석)


저는 형태소 분석기 (Okt 사용)를 사용하여, 명사 추출과 동사 추출 두가지를 진행했습니다.


스크린샷 2025-12-31 오전 11.07.15.png
스크린샷 2025-12-31 오전 11.10.00.png


이렇게 빈도만 살펴봐도 되지만, 제 데이터 셋에는 '작성일/답변수' 도 있으므로

추출한 텍스트를 변수화하여 관계를 파악할 수도 있습니다.


(2) 작성일과 답변수에 대한 기초 통계 분석


다음은 작성일과 답변수에 대한 기초 통계 분석입니다.


스크린샷 2025-12-31 오전 11.19.46.png


답변수의 경우 꽤 흥미로운 결과가 도출되었습니다.

평균값(5.2)이 중앙값(2)보다 2배 이상 높은데요, 이는 전형적인 오른쪽 꼬리 구조로

대부분의 평범한 질문은 1~2개의 답변밖에 받지 못하지만,

소수의 '대박 질문'들이 전체 평균을 끌어올리고 있습니다.


또한 제3사분위수(75%)가 3개인 반면 최댓값(Max)은 무려 72개입니다.

전체 질문자의 75%는 답변을 3개 이하로 받는데, 어떤 질문(Max)은 혼자서 72개의 댓글을 독식했습니다.


특정 주제에 편향적인 경향이 있다고 볼 수 있습니다.

평균이 5.2인데 편차가 9라는 것은 변동성이 평균보다 크다는 뜻입니다.


즉, 어떤 질문들은 전문가 혹은 답변가로 활동하는 사람들로부터 주목받지 못하며,

"내가 질문을 올렸을 때 답변을 잘 받을 수 있을지 없을지 예측하기

매우 어렵다(복불복)"고 할 수 있습니다.


저는 이 답변수에 대한 분석을 통해, 단순히 기초 통계만 했을 뿐이지만

1차적으로 해당 소스의 데이터 분석이 우리 서비스에 대한

니즈의 근거로써 매우 주요하게 쓸 수 있다는 인사이트를 얻었습니다.


또한 후속될 변수 간의 관계를 살펴보는 것이 생각보다 좋은 의미를 도출할 수도 있겠다는 생각도 듭니다.


아 참, 마지막 칼럼인 '카테고리'에 대한 빈도 분석은 왜 하지 않지? 하실 수 있겠죠?

사실 이것은 이미 제미나이가 가분류를 하면서 알려줬습니다.


(3) AI가 해주는 기초 분석 뜯어보기


스크린샷 2025-12-31 오전 11.29.11.png 답변을 곧이곧대로 받아드리지 마세요. 수고로움을 덜어주지만 판단은 언제나 사람의 몫입니다.


카테고리의 값의 수는 아까 삭제 전 6개 입니다.

그런데 6개 중 건강/질병이 약 40~50%정도 된다고 하네요.

(540여개 중 50%이면 300개에 가까운 숫자 입니다.)


과반을 넘어서는 수치가 하나의 값에 몰려있으므로 추가적인 빈도 분석이 불필요하다고 느꼈습니다.

또한 AI답변의 경우 사실상 분석+해석을 합쳐 수행합니다. 일종의 힌트를 주는 셈이죠.

(반대 급부로 '해석'의 경우, 아까 위에서 다룬 것처럼 사람의 재검토가 필요합니다.)


행동/심리의 경우 답변이 많이 달린다고 하네요.

(사실 조회수라는 것은 수집된 데이터에 없었습니다.. 이런 틀린 정보를 잡아내셔야 합니다. )


따라서 '카테고리' 칼럼은 기초 분석을 해보기 보다는 답변수와 연관하여

바로 관계 분석으로 가는 것이

좋겠다고 판단했습니다.




EDA STEP 3 :

4. 변수 간의 관계성을 파악한다.


아까의 STEP 2를 통해 '명사'와 '동사'를 추출한 변수를 추가했습니다.

이는 문장 단위를 단어 단위로 교체하여 관계 분석을 쉽게 하기 위함입니다.

'추출_동사' 변수의 경우 결측치 값도 있고, '추출_명사'의 경우 값이 여러 개로 중복되는 것이 특징입니다.


스크린샷 2025-12-31 오전 11.48.23.png


이 부분은 사전 탐색의 경우에는 최대한 많이 해보는 것이 좋습니다.

저는 그래서 제미나이에게 관계성 분석이 가능한 모든 경우의 수를 다 제안해볼 것을 요청했습니다.


(1) 텍스트 마이닝 및 내용 분석


(1)-1. 단어 네트워킹 빈도

'추출_명사'의 경우 여러 개의 단어들이 조합되므로, '추출_동사'와 함께

한 문장(행) 안에 같이 등장한 단어들의 연결 관계를 만들고,

가장 많은 빈도를 보인 조합을 살펴보았습니다.

(예: '고양이' - '토' - '혈뇨'가 서로 연결될 수 있다.)


스크린샷 2025-12-31 오후 12.06.13.png 실무에서 진행할 때에는 시각화까지 해야 한다.


시각화를 하면 좋겠지만, 간단하게 구글 코랩으로 주로 사용하는데,

이 코랩에서는 한글 패키지 설치가 다소 까다로워 생략합니다... (내가 못하는 걸수도)


상위 3위까지는 다소 일반적인 결과이지만 이후의 4위 부터는 고양이 자다, 고양이 합사, 고양이 꼬리 등으로 의미 있는 인사이트가 도출됨을 알 수 있었습니다.


대부분의 키워드가 예상하지 못했지만 그럴 수도 있겠다 싶다라면

특히 '자다'의 경우 데이터 분석 전 전혀 예측하지 못했던 키워드로

그 내용을 좀 더 구체적으로 살펴보았습니다.


내용을 살펴본 바, '잘 때 발을 내놓고 잤는데 안자요', '같이 잤는데 안자요' 등

반려묘가 '수면' 시에 그 상태를 자주 관찰하는 집사의 행동 특성이 있음을 알 수 있었습니다.

이는 서비스 설계에 있어서 아주 중요한 인사이트가 될 수 있습니다.


(1)-2. '카테고리'와 '추출_명사' 변수를 통해 카테고리별 빈도 분석


텍스트 마이닝은 라이브러리 자체가 아직 '동사'에 대해서 보다는 '명사'에 대해서 더 정확도가 높습니다.

(한글의 동사 활용이 복잡한 관계에서 비롯)


따라서 카테고리와 명사만을 바탕으로 카테고리별로 어떤 명사가 가장 많이 나왔는지를 살펴보았습니다.


스크린샷 2025-12-31 오후 12.20.48.png


사실 카테고리는 이미 텍스트 추출을 통해 나온 파생변수라 크게 의미가 있다는 것은 없었으나,

행동/심리와 건강/질병에서 모두 '길고양이'라는 새로운 높은 빈도의 키워드를 발견 할 수 있었습니다.

빈도가 너무 적기 때문에 빈도에 따라 우선 순위를 세우는 것보다는 뭔가 눈에 띄는 '키워드'를 발견하는 데에 의의를 두었습니다.


행동/심리 카테고리에서 집사들은 주로 '행동' ('자세', '꼬리', '자세', '꾹꾹')

어떤 '이유'를 궁금해하겠다 라는 것을,


건강/질병 카테고리에서 집사들은 '상처', '눈꼽', '피부' 등에 '질문'하고 있음을 알 수 있습니다.


여기에서 포인트로 저는 어떤 것에 '이유'를 찾는 것과 어떤 현상에 대해 '질문'하는 것은

조금 다른 이야기일 수 있겠다라는 생각이 들었습니다. 솔루션이 해결하고자 하는 페인포인트가

'궁금증의 해결인가', '현상의 원인의 답인가'를 결정하는 것이 매우 신중하게 필요하겠다라는 점입니다.



(2) 영향력 분석


(1)의 인사이트에 이어서

그렇다면, 높은 빈도를 보인 키워드는 어느정도의 답변수를 얻는가?를

알아보고자 했습니다.


(2)-1. 어떤 질문이 사용자의 반응(답변)을 이끌어내는가?


일단 '고양이'를 제외하고 상위 10개의 명사에 대한 평균 답변 수를 비교했습니다.


스크린샷 2025-12-31 오후 12.39.09.png


빈도가 높은 키워드는 답변 수 또한 평균값(5.2) 이상으로 높게 받는다는 것을 알 수 있습니다.

그런데 이 결과는 통계 검정(ANOVA) 결과, 단어별 답변 수의 차이는 우연에 가까우며

통계적으로 의미가 없었습니다.


P-value(P값): 0.756로, 통계에서는 보통 이 P값이 0.05보다 작아야 "의미 있는 차이가 있다"고 봅니다.


그래서 '카테고리'에 따른 '답변수'의 차이를 통계적으로 검정해보는 작업을 추가로 해보았습니다.

카테고리는 키워드 보다는 데이터 값이 많기 때문에 분포가 고를 수 있습니다.


그 결과,

P-value가 0.239로 키워드보다는 낮아졌지만 여전히 유의하지는 않았습니다.


카테고리에 따른 답변수의 평균값은 통계적으로 유의하지 않으나

사료/영양이 약 8.23회 평균값으로 가장 높았고,

행동/심리는 약 5.77회, 건강/질병은 약 4.60회 순이었습니다.


답변 수에 대해서는 강력하게 지지되는 결과는 없으나

평균 값의 비교로써 '출현 빈도가 높은 키워드는 답변을 많이 얻는다',

'사료/영양은 답변을 많이 얻고, 건강/질병은 전체 빈도에 비해 답변을 적게 얻는다'라는

가정을 얻을 수 있습니다.


이를 통해 다음 분석의 계획은 세워볼 수 있었습니다.

이것이 새로운 분석의 목적이 될 수도 있습니다. '어떤 질문이 가장 많은 반응을 얻는가'

1. 다른 사람들도 많이 물어보는 질문(키워드)일수록 답변이 늘어난다,

2. 사료/영양 분류에 대한 답변은 쉽고, 건강/질병으로 분류되는 질문에 대한 답변은 어렵다


이렇게 가정을 세운다면,

이에 대한 신뢰할 수 있는 타당한 검정이 추가적으로 이뤄져야 합니다.

만약 솔루션이 반려묘의 정보를 제공해주는 검색 또는 즉문즉답 앱이라면

위의 두가지 가정은 더 많은 데이터셋을 바탕으로

다시 한번 살펴봐질 필요성이 분명히 있습니다.


이처럼 또다른 질문과 목적으로 유도하는 것이 EDA의 본질이자 즐거움입니다.


(3) 시계열 및 트렌드 분석 (요일별 분석)


이제 EDA 분석의 마지막 가능성이 남았습니다.

바로 날짜 '작성일' 변수를 이용하는 것입니다.

사실 시계열 분석이 충분하게 이뤄지려면 적어도 1년 단위 이상의 충분한 빅데이터링이 필요합니다.

그러나 계속 반복 설명했듯 본 분석을 위한 '가정' 사전 탐색으로써 진행해보겠습니다.

흥미로운 결과가 나온다면, 본분석 때 시계열 분석으로 초점을 맞춰볼 수 있겠습니다.


계절성 이슈를 고려하기는 어렵더라도, 34일 기간의 데이터를 통해 일별, 요일별 분석은 해볼 수 있습니다.

주말에는 병원이 문을 닫으니 '건강/질병' 관련 급한 질문이 늘어나는지,

혹은 여유로운 주말에 '행동/심리'에 대한 호기심 어린 질문이 많아지는지,

요일별 패턴을 확인하는 것만으로도 의미가 있을 수 있습니다.


(3)-1 일별/요일별 '카테고리' 빈도 분석



결론부터 정리하면, '카테고리'와 '추출_명사' 빈도 분석을 두 개 다 수행하였습니다만,

'추출_명사' 만으로는 데이터 수가 적어, 빈도가 2이상 되는 경우를 찾을 수 없었습니다.


카테고리에 대해서는 꽤 흥미로웠는데요, 요일은 영문으로하여 시각화까지 해보았습니다.


스크린샷 2025-12-31 오후 1.19.16.png


빈도 히트맵의 색이 밝을 수록 빈도가 높은 것입니다.

전체적인 빈도를 살펴보면, '건강/질병' 관련 질문이 압도적으로 많습니다.

특히 일요일에 가장 집중되어 있고, 월/화/수요일까지 높은 추세가 이어집니다.

일요일에는 '행동/심리' 질문 또한 높게 나타났습니다.


다만, '건강/질병'과 '행동/심리' 카테고리의 절대적인 수치가 워낙 크다 보니, 상대적으로 적은 카테고리의 요일별 패턴이 잘 보이지 않는 한계가 있습니다.

이에, 각 요일 내에서의 비중을 정확히 비교하기 위해 데이터를 비율(%)로 변환(표준화)하여

재분석했습니다.


ㅇㅇㄹ.png


이렇게 하면 요일별로 어떤 질문의 카테고리가 많았는지 살펴볼 수 있습니다.

이번에는 색이 진할 수록 빈도가 높습니다.

전반적으로 모든 요일에서 건강/질병의 비중이 높았지만, 행동 심리의 경우 상대적으로

금요일과 화-일요일에 비중이 늘어나고

사료/영양, 용품/추천은 일요일이 될 수록 비중이 줄어드는 것을 확인할 수 있습니다.


이 결과 역시, 카이제곱 검정으로 통계적 유의성을 살펴보면 유의하지 않은 P-value (유의확률)인 0.9025를 나타냈지만, 앞 선 결과와 마찬가지로

새로운 가정을 세워볼 수 있습니다.


전체 질문 비중에서 다수를 이루는 건강/질병 질문의 경우

'주중'보다는 '주말'에 이뤄질 것이다.

(이는 보호자들이 주말에 시간적 여유가 많기 때문일 수도 있고,

혹은 주말에는 병원이 문을 열지 않아 대체재로

질문을 남기는 것의 두가지 경우 모두 포괄할 수 있습니다. )


구매와 관련한 사료/영양, 용품/추천에 관한 질문은 '주중'에 주로 이뤄질 것이다.

행동/심리의 경우 요일에 큰 영향을 받지 않을 것이다.





EDA STEP 4 :

5. 분석 목적과 방향성을 점검 및 보정한다.


이제, 분석의 결과들을 종합하여 보겠습니다.


EDA에서 통계적인 유의성을 지닌 결과를 찾을 수는 없었지만,

숫자가 말해주지 않는 행간, 바로 '맥락(Context)'을 포착해볼 수는 있었습니다.


저는 이 과정의 결과로써 '명확하게 드러나는 결과'가 아니라

본 분석을 위한 '아이디어 탐색'에 집중했습니다.


이 희미한 신호들을 모아, (가칭) 고양이 데이터 분석 솔루션 을 만들기 위한

3가지 핵심 가설을 세워보았습니다.


이것은 결론이 아니라, 진짜 문제 해결을 위한 출발점입니다.


포인트 1. 분류를 위해서는 새로운 '연결'이 필요하다.

AI는 질문을 '건강'과 '행동' 등 카테고리로 깔끔하게 나눠주었습니다.


하지만 집사로서의 경험과 데이터의 질적 내용을 통해

고양이가 발톱 깎기를 거부하는 것(행동)은 단순한 투정일까, 아니면 관절이 아파서(건강)일까?

사료를 거부하는 것(사료/영향)은 입맛이 까다로워서일까(행동), 아니면 구내염(질병)의 전조일까?


이렇게 추가적인 원인에 따른 결과의 분석이 필요하다는 것을 알 수 있었습니다.


다음 분석에서는 '원인(사료/용품)'과 '결과(건강/행동)'을 면밀하게 살펴보아야 한다' 라는

목표를 세웠습니다.


우리가 만들 솔루션이 단순한 Q&A 게시판이 아니라,

"어떤 사료를 먹였을 때(원인) 어떤 증상(결과)이 나타났는지"를 밝혀주는 보다 분명한 리포트가 되기 위해서 꼭 필요합니다.


포인트 2. 집사의 일주일엔 '리듬'이 있다.


통계적으로 유의하진 않았지만, 히트맵에 나타난 요일별 결과는 흥미로운 가설을 던져줍니다.

저는 두 결과를 연결했습니다.


건강과 행동은 주말 전후로 늘어나고, 사료, 용품은 주중 중 늘어난다면

이 두가지 결과를 연결할 수도 있지 않을까? 라는 생각입니다.

이는 위의 포인트 1과도 연결됩니다.


사료/용품에 따라 건강/행동이 일어날 때 요일에 따른 루틴이 반복될 수 있다는 것입니다.

(혹은 건강/행동에 따라 사료/용품 구매나 사용이 이어질 수도 있습니다.)

이것은 후속 분석을 위한 데이터를 어디서 얻을 것인가에 대해서 중요한 의미를 줍니다.


또한 솔루션 사용의 설계에 있어서도 인사이트를 줍니다.


주중에는 '소비와 사용'을 기록하게 하고,

주말에는 '건강과 행동 변화'를 점검하게 한다면 데이터 입력의 효율이 높아질 수 있습니다.

프로토타입이 나온다면 이 가설을 실험해볼 필요가 있습니다.


포인트 3. 움직이는 고양이보다는 '자는 고양이'를 우선적으로 기록한다.


사실, 텍스트 마이닝 과정에서 갑자기 나온 '자다(Sleep)'라는 키워드는

이번 분석의 주요한 포인트였는데,

이 키워드는 빈도와 전체적인 결과에서 크게 뚜렷하지 않지만, 생각의 전환을 가져오게 했습니다.

사실 키워드로써 훨씬 다수로 등장하는 어떤 질병의 증상이나 꼬리, 자세 등의 움직임의 경우에는

오히려 데이터의 분석이 매우 어려워질 수 있습니다.

왜냐하면 그 결과에 상관되어 있는 잠재 변수들이 너무 많고

관측에 있어서도 통제하지 못하는 별도의 변수가 작용할 수 있기 때문입니다.


수의학적인 지식과도 면밀한 연계가 중요한데,

현재 빠르게 프로토타이핑을 1월 중 마무리하고자 하는 제 목표에서 갑작스럽게 해당 데이터를 모으기란

어렵다고 생각되었기 때문입니다.


그런데 우리 솔루션은 집사들이 스스로 고양이를 관찰한 데이터를 입력해야 하기 때문에

관찰이 어려워진다면 솔루션에 기록하기 귀찮아 질 수 있습니다.

만약 우리가 가장 관찰하기 쉬운 '수면' 데이터를 핵심 지표로 삼는다면,

데이터 수집의 허들을 보다 낮출 수 있다고도 생각되었습니다.


또 수면 상태의 경우 적절한 통제 변수가 이미 조정되어 있기 때문에,

편향과 왜곡이 적게 일어날 수 있어 모델 자체에도 긍정적으로 작용합니다.


건강/행동을 기록할 때

"관찰이 용이한 '수면 상태'의 기록이, 역설적으로 가장 정확한 건강 데이터가 될 수 있다."는

생각이 들었습니다. (이것은 가설 수준이지만)


그렇다면, 종속 변수는 '고양이가 자는 동안의 모습'

독립 변수는 '사료/용품 구매나 사용 패턴' 이렇게 될 것입니다.


1. 고양이가 자는 동안의 모습은 어떤 세부 변수들로 구성되는지

2. 사료와 용품의 사용 및 구매와 관련한 패턴들은

어떻게 이뤄지는지 찾아보고,

3. 이 둘 사이의 관계를 파악합니다.

이 때, 상관 - 인과 - 지도/비지도 등으로 단계적 분석을 수행합니다.


( 답변 수는 사업의 타당성을 논하는 계획서 상에 근거로 사용하고,

요일별 차이는 프로토타이핑 평가에서 중요하게 적용해보기로 했습니다. )





따라서 다음 글에서는 이제 본분석에 돌입하여

'변수 정의'부터 시작해보겠습니다.





<글의 작성에 기초가 되는 통계 키워드>


수치형 변수 (Quantitative Variable)

키, 몸무게, 가격처럼 '양(Quantity)'을 측정할 수 있어

더하기나 평균 같은 산술 연산이 의미를 가지는 데이터


범주형 변수 (Categorical Variable)

성별, 혈액형, 지역처럼 대상을 고유한 특성에 따라 '그룹(Category)'으로 분류하는 데이터,

수치적인 크기 비교가 불가능한 데이터


파생 변수 (Derived variable)

: 원래 있던 변수들을 조합하거나 함수를 적용하여 새로 만들어낸 변수

데이터 구간화, 표준화 및 정규화 등도 일종의 파생변수

로그나 제곱근 등을 취해 변동성을 완화 혹은 지수함수 사용하여 분산 증폭도 가능

시계열 분석에서는 시점을 고려한 과거 시점 대비 변화 정도

파생 변수는 기존의 변수를 활용해 만들어낸 변수이기 때문에 다중공선성의 문제가 발생할 수 있어

변수 선택에 주의가 필요하다.


탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

: 본격적인 분석 전, 데이터의 특징과 구조를 파악하기 위해 다양한 각도에서 관찰하고

가설을 찾아내는 초기 분석 단계

정해진 결론을 검증하는 것이 아니라, 데이터가 가진 모든 가능성을 열어두고 숨겨진 패턴과 인사이트를 발굴

가능한 모든 관계성을 나열한 후 의미 없는 것을 소거하는 방식(List-up & Filter)


이전 02화서비스 기획의 AI 코워킹, 쉬운 텍스트 마이닝 접근법