데이터 중심 연구자의 길

by 진중현

데이터 중심 연구자의 길


식물형질개발연구실 · 세종대학교 · 2026. 03. 11 진중현 교수


"중요한 것은 개별적 지식이 아니야. 그 맥락이란다."


1. 데이터가 곧 지식이다

우리는 지금 데이터 중심 사회에 살고 있다. 예전에는 대규모 데이터 생산이 국가 연구소나 대기업의 전유물이었지만, 지금은 개인이 기업보다 더 큰 역량을 가질 수 있는 시대가 되었다. 데이터 활용 수준과 범위는 사용자의 역량에 따라 물리적 한계 없이 확장된다.


그러나 데이터의 힘은 단순히 많은 데이터를 모으는 것이 아니다. 데이터는 진짜 지식이며, 심지어 한계생산비용이 0에 수렴한다. 이 말은, 데이터를 잘 만들고 수집하고 공유하는 시스템을 가진 사람이 새로운 세상의 주인이 된다는 뜻이다.


데이터의 4가지 조건:

정직하게 수집되어야 한다

성실하게 축적되어야 한다

틀린 것도 모두 기록해야 한다

메타데이터와 함께 보존되어야 한다


기계는 거짓말을 하지 못한다. '틀린 결과'란 없다. 우리가 모르는 환경과 설계가 있었을 뿐이고, 결과가 내 생각과 맞지 않았던 것이지 데이터 자체는 진실이다. 원본 데이터를 폐기하거나 재료를 임의로 포기하는 것은 굉장히 비윤리적인 행위다. 데이터가 축적되면 나머지는 AI와 통계가 해결해 줄 것이다.


2. 가설은 관찰로부터 시작한다

연구에서 가장 중요한 것은 가설이다. 그러나 가설은 공중에서 만들어지는 것이 아니다. 포장에서, 실험실에서, 예상치 못한 관찰에서 시작되는 것이다. '왜 이 재료가 내염성을 보이는가'라는 질문에 대한 답은 이미 누군가의 데이터 안에 있다. 그것을 먼저 확인하는 것이 가설 수립의 첫 걸음이다.

모든 실험에 앞서 스스로에게 이 세 가지를 물어야 한다:


이 가설을 뒷받침하는 예비 데이터가 있는가?

가설을 검증할 수 있는 재료가 확정되어 있는가?

결과가 예상과 다를 때의 대안 해석이 준비되어 있는가?


계획서의 완성도와 실험의 실행력 사이의 간격이 좁을수록 좋은 연구자다. 아무리 훌륭한 계획서도 실험실 안의 데이터를 대체하지 못한다. '가상의 결과'가 아닌 실제 초기 데이터가 논문 계획의 설득력을 결정한다.


3. 학위논문과 학술논문은 다르다

학위논문은 자격증이다. 세상에서 단 한 사람만이 할 수 있는 이야기를 하나라도 하는 것이 목표다. 반면 학술논문은 화폐다. 개별적인 발견을 학문의 맥락 안에서 여러 편 발표하는 것이 실질적인 경쟁력이 된다. 귀족은 되었으나 가난하지 말라는 말이다.


image.png


저널 전략도 현실적으로 세워야 한다. 2~4점 저널 1~2편으로 시작하고, 6~8점, 12점 이상 순서로 도전하는 단계적 접근이 성공적인 학위를 마치는 방법이다. 12점 이상 저널에서는 생리학적 토론과 높은 수준의 글쓰기, 통계 처리 능력이 요구된다. 그러니까 너희들이 생각할 때 먼저 2~4점 저널에도 한두 개 내고, 그 다음에 6~8점, 그 다음에 12점 이상의 저널까지 내야 성공적인 학위를 마치게 될 것이다.


4. 맥락과 시퀀스: 박사의 핵심 역량

지식보다 더 중요한 것은 맥락이다. AI 도구 70개로 26,000개의 열린 질문을 던졌을 때 결과가 모두 유사했다는 연구가 있다. 도구가 좋아도 인간의 규율이 그 장치를 만든다. 도구는 같지만 뭔가 다른 사람들이 역사를 바꿨다. 그것이 인사이트다.


인사이트는 기본에서 나온다. 기본은 태도이고 자세다. 다음에 무엇을 해야 하는지, 맥락과 시퀀스를 판단하는 것이 능력의 핵심이다. 그것이 없으면 박사 학위도 소용없다. 사회에서 기대치만 높아져서 갈 곳이 없어진다. 애매한 중간 지역이 직업 세계에서 빠르게 사라지고 있다.


데이터 중심 연구자의 4가지 자세:

정직하게 꾸준하게 데이터를 축적한다

틀린 것도 모두 적고 메모한다

판단 도구를 써서 왜 틀렸는지 찾아내고 즉시 피드백하여 적용한다

제안하고 협의하면 약속을 반드시 지킨다


5. 연구실의 방향: 세계적 데이터 기반 집단


이 연구실의 목표는 세계적 수준의 데이터 중심 연구 집단이 되는 것이다. 각 재료가 2~3회 이상 조사 데이터를 축적하면 LLM이 그것을 해결해 줄 것이다. 중요한 것은 각자가 관심 있는 토픽에 대한 데이터 목록과 데이터의 계층(Ontology)을 명쾌하게 이해하고 정리하는 것이다.


AI에게 어떤 기계가 어떤 데이터를 수집했는지 메타데이터를 잘 전달하면, AI가 굳이 인간이 알 수 있게 설명받을 필요 없이 그 데이터를 자기가 더 잘 이해할 체계로 흡수해서 활용할 수 있다. 인간이 수집한 데이터와 그것을 융합하는 방식을 지시하면 된다. 이것을 하나하나 따지고 들어가서 발견한 사실을 논문에 기술하면 되지 않겠는가. 작은 대학의 연구실에서 집중하여 밝혀낼 연구의 목표는 대규모 집단이 놓치는 그 무언가다. 그러나 방법은 여전히 같다. 통계다.


6. 성실성과 정직성: 시스템의 윤리


예전에는 자기 연구가 자기에게만 해당되었다. 그런데 데이터 기반으로 연구 방향을 만들고 지식이 데이터 기반으로 확장되면, 개인의 일탈이 전체의 결과에 직접적인 영향을 준다. 성실성과 정직성이 단순한 덕목이 아니라 시스템의 구조적 요건이 되는 이유다.


결과가 내 생각과 맞지 않더라도 원본 데이터를 폐기하는 것은 비윤리적이다. 틀린 것은 틀린 것이 아니다. 우리가 모르는 환경과 설계가 있었을 뿐이다. 그 예외 데이터도 메타데이터가 있으면 나중에 반드시 의미를 갖게 된다.


뛰어난 개인의 역할이 확장되려면 오로지 데이터의 수집 과정에서의 윤리성과 성실성이 중요하다. 원칙을 안 지키고, 실험을 성실히 안 하고, 데이터를 임의로 폐기하면 어떻게 되는가. 그 피해는 이제 개인에게만 머물지 않는다. 전체 시스템의 결과에 직접적인 영향을 준다.


마치며


"희망을 잃지 마라. 다만 상대적으로 열등해지지 마라."


뛰어난 개인의 역할이 확장되려면 오직 데이터 수집에서의 윤리성과 성실성이 중요하다.


— 진중현, 2026. 03. 11


우리 전문 분야의 데이터를 잘 만들고 수집하고 공유하는 시스템을 일반 도구로 잘 만들면 된다. 좀 잘 나가는 신하 어디쯤이면 충분하다. 그게 현실적인 목표이고, 그 목표를 향해 치열하게 생각하고, 자신의 생각을 궁극의 지점까지 끌어올리는 것이 지금 너희들의 숙제다.


질문을 더 자세히, 촘촘하게, 내가 스스로 의심이 생기지 않을 때까지 훈련해라. 그리고 교수에게 도전해라. 그게 좋은 사제 관계다. 그래야 교수도 배우고 일깨워진다.

작가의 이전글세상이 망한다면