brunch

You can make anything
by writing

C.S.Lewis

by 김창현 May 10. 2023

72만 개 번역문을 추가했습니다.

대학원생을 위한 사이트를 만들기(feat: 학위논문 쓰는 팁)

(수정) 72만개 문장으로 업그레이드 되었습니다. 지금 바로 확인하세요. 


위사이트 연결 안되면 자매 사이트도 있습니다. 


대학원에서 살아남는 레시피를 쓰고 나서 한동안 좀 우울했습니다. 글을 정리할 때의 기쁨과 달리 생각보다 판매량이 따라주지 않아서였죠.

그런데 어느 날 문득 이런 생각이 들었습니다.

도대체 내가 누구길래 이 사람들이 내 책을 사서 읽어야 하지?

7년간 대학원 생활을 해서 취직에 성공했다. 이건 사실 어디에서 성공담이라고도 할 수 없는 흔한 스토리입니다. 게다가 저자는 대학원계의 상위포식자인 교수도 아니니까요.


그러다 생각한 것은 "내가 대학원생을 위해서 무엇을 할 수 있을까?"라는 문제의식이었습니다.


제 책에도 나와 있지만, 아주 옛날부터 이런 생각을 했습니다. 결국 하늘 아래 새로운 것은 없다는 것이죠. 물론 논문에 들어가야 할 데이터는 새로워야 하지만, 문장과 스토리라인은 끊임없는 반복의 연속입니다. 이 논문에서 나오는 문장이 저 문장에도 나오는 격이죠.  


예를 들어 봅시다. "이 연구의 목적은.."이라고 시작하는 문장은 세상에 너무나 많습니다. 그것을 한 문장에 두 세개의 목적을 다 쓸 것이냐, 아니면 간명하게 한 목적 정도만 쓸 것인가의 차이가 있을 뿐이죠.

연구의 목적을 설명하는 문장은 모든 논문에 한번씩 나온다.

이런 문장을 한국말로 쓸 때, 혹은 영어로 쓸 때 우리는 끊임없이 고민합니다. 어떻게 쓰는 것이 더 잘 쓰는 것일까?

그런데 저는 항상 이런 생각을 했습니다. 순서가 좀 달라지면 어떨까요? 써야 할 내용을 모두 써놓고 나서 고민해보면 어떨까요?


양적 연구의 경우, 연구의 목적은 AAA이며, 연구의 방법론은 BBB이다. 연구의 대상은 CCC이며, 연구가설은 DDD이다.


이런 내용과 관련된 문장은 어떤 논문에도 빠지지 않고 들어갑니다. 심지어 자동으로 생성할 수도 있을 것 같아요. 수많은 대상을 자동으로 넣은 다음에, 자동으로 회귀분석을 시키고, 자동으로 결론 문장을 써내게 할 수도 있을 것 같습니다. 먼 얘기가 아니라, 이게 이제 너무 가능한 얘기가 되어버렸어요.


그럼에도 불구하고,

그럼에도 불구하고,


막상 글을 쓰려면 막막합니다.

그럼 이렇게 해보는 건 어떨까요?


이미 써야할 말을 다 써놓는 겁니다. 그리고 나서 고민하는 거죠. 글이라는 건 집 짓는 것과도 비슷합니다. 구조만 짠다고 되는 건 아니지요. 누군가는 벽돌을 날라야 하고, 누군가는 공구리를 쳐야 합니다. 먼저 목차를 세운 다음에 고민하지 않아도 써야 할 문장들을 찾아서 넣어놓습니다.


"연구의 목적은"으로 시작되는 문장이 아주 대표적인 문장이죠. 어떻게 추가 하느냐? 남이 써놓은 문장으로 추가합니다(* 절대 그대로 베껴서는 안됩니다).


아래와 같이 여러분이 써야 할 예시 문장들을 미리 적어놓는 것입니다. 그리고 여러분이 직접 적어야 할 문장들은 아래와 같이 일단 표시를 해 놓습니다. 나중에 여러분만의 언어로 바꿔야 하기 때문이죠.


<예시>

- 한국어: 본 연구의 목적은 퇴직 후 베이비부머의 관광 경험에 대한 본질을 이해하는 것이다.

- 영어: The purpose of this study is to understand the nature of the tourism experience of baby boomers after retirement.


연구대상에 관한 문장은 어떨까요? 아래 문장의 경우 인구통계학적 특성을 기술하는 문장인데, 거의 모든 양적 논문에 필수적으로 들어가는 문장이라고 할 수 있습니다. 혹시 논문을 영어로 작성하고 있다면, 여러분이 쓰고 싶은 문장은 한국어 키워드로 검색한 다음 관련 영어문장 샘플을 찾아보면 됩니다.


<예시>

- 한국어: 연구 대상자의 인구 통계학적 특성은 <표 #>과 같으며 재창업 전의 업체의 정보와 현재 업체의 정보는 <표 #>에 제시하였다.

- 영어: The demographic characteristics of the study subjects are shown in <Table #> and the information of companies before re-establishment and information of current companies is presented in <Table #>.


이와 같이 연구에서 기본적으로 써야 할 문장들만 미리 선정해놔도 논문 쓰기가 그렇게 까지 부담스럽지는 않을 것입니다.


그러면 논문 문장 정보는 어디에서 얻을 수 있느냐? 한국지능정보사회진흥원에서는 AI Hub라는 사이트를 통해서 엄청나게 많은 말뭉치 데이터를 제공하고 있습니다. 자체적으로 크롤링 등을 통해 얻은 정보인지, 문장 수준이 제법 뛰어납니다. 이미 수많은 연구자들이 고민해서 써놓은 문장들이거든요.


* 단 여기에 있는 문장은 예시문장으로 절대 그대로 가져다 쓰면 안됩니다. 


아래 사이트에서는 현재 AI hub에서 제공하는 말뭉치 데이터를 이용하여 2023년 5월 10일 현재 기준 388,588개의 문장을 수록했습니다.

insight.gixpert.com

사용법은 아주 간단합니다. 아까 제가 보여드린 문장들 역시 "연구의 목적", "연구대상은"이라는 키워드로 검색한 결과물입니다. 검색 문장 수 자체가 방대하다 보니, 골라서 쓸 수 있습니다.


현재는 검색되는 문장의 수를 20개로 제한했으며, 이 문장들은 랜덤으로 출력됩니다. 여러분이 검색할 때마다 "어떤 문장이 나올까" 기대하게 되는 부분이죠.


이 DB의 장점은 '기술' 분야의 논문까지 폭넓게 들어가 있다는 점입니다. 여러분 "폴리머"가 뭔지 아시나요?

'폴리머(polymer, 고분자)'는 한가지 이상의 모노머 단위가 서로 연결된 분자로 이루어진 물질입니다. 또한 단량체가 두 개 이상 결합했다는 의미에서 '중합체'라 불리기도 합니다.


폴리머 연구를 하시는 분들은 예시문장을 찾을 수 있을까요? 이 DB에는 폴리머에 관한 문장이 10개 있습니다.


앞으로도 DB는 계속 추가될 예정입니다. 데이터셋이 무궁무진해서 여러분이 잘 사용해주신다면 앞으로도 많은 문장을 올릴 수 있을 것 같습니다. 나중에 기회가 되면 더 자세히 소개해 드리겠지만, 이 프로그램은 Ruby on Rails로 작성하였습니다. 데이터 가공 및 처리는 아무래도 저에게 익숙한 파이썬(Python)으로 했네요. 원래 "플랫폼 학회"라는 이름의 사이트였지만, 과감하게 "플랫폼 학회"라는 키워드를 지우고 대학원생을 위한 사이트로 꾸며보기로 했습니다.


* 아직 사이트의 완성도는 조금 미비하니 감안해서 보아주시면 감사하겠습니다(불편한 점이 있으시면 댓글 등으로 신고도 해주세요).


아래 영상은 10만개 DB를 올리는 데 성공하여 너무 기쁜 마음으로 찍은 영상입니다.

이 글과 사이트가 여러분의 대학원 생활에 조그마한 도움이 되었으면 좋겠네요.


파이썬으로 AI hub에서 제공하는 데이터셋 다루고 루비온레일즈로 업로드하는 현장


매거진의 이전글 [대학원] chatGPT4에게 물어봤습니다. 
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari