데이터사이언스, 통계학 분야
매우 신중하게 선택해야 함.
핵심이 포함되어야 하며 1-2개의 단어는 Challenge한 느낌이 있어야 함.
너무 평범한 단어들의 나열은 마이너스 효과.
논문 제목으로 인해 Reject되는 경우도 있음.
저자 이름과 소속은 오탈자 없도록 주의할 것. 특히 공저자 (남의 이름) 이름 주의!
우리나라 이름, 영문 표기 시 형식이 제각각 이므로 여러 번 확인해서 틀리지 않게 쓸 것.
이름의 경우 스펠링 뿐만 아니라 하이픈으로 연결되어 있는지 여부, 띄어쓰기가 있는지 (혹은 없는지) 주의 할 것.
특히, 공저자의 주소와 이메일 주소는 여러 번 확인할 것.
최신 우편번호 표기법을 쓸 것 (5 digits).
학교 명 중간에 of가 들어간 학교 이름 앞에는 The를 붙여주어야 함.
예: The University of Seoul (서울시립대학교), The Georgia Institute of Technology.
예: Korea University (고려대학교), Colorado State University.
논문의 요약문으로 가장 먼저 읽게 되는 부분임.
본 논문에서 행한 연구의 중요성 언급 (해당 연구분야의 중요성 언급).
기존 연구와의 차별성이 무엇인지 부각함으로써 본 연구의 독창성 강조.
본 연구의 목적을 직접적으로 언급 (The purpose of this study is to examine ~).
제안 방법의 특징을 간단하게 요약.
결론 요약 (예: 제안 방법을 시뮬레이션 혹은 실제 데이터에 적용해 본 결과 우수하다).
일반적으로 초록에는 Citation 표기를 하지 않음.
논문을 쓰는 동안 여러 번에 걸쳐 쓴다고 생각해야 함.
영문 논문이라도 먼저 한글로 전체적인 구조를 잡고 쓰면 훨씬 효과적임.
초록에서 요약한 내용을 확장한다고 생각하고 쓰면 됨.
본 연구에서 다룰 주제의 중요성 강조.
본 연구와 관련되는 주제를 점점 좁혀가면서 리뷰. 가장 근접한 주제는 자세하게 리뷰.
리뷰의 목적은 단순히 관련 연구를 소개하는 것이 아니라 리뷰를 통해 기존 연구의 특징과 한계점을 언급하고, 이를 통해 본 연구의 독창성을 강조하는데 있음.
본 연구의 목적을 직접적으로 언급 할 것. The purpose of this study is ~
목적과 더불어 본 연구의 가설을 반드시 언급할 것. 가설은 본 연구에서 우리가 기대하고 있는 결과임.
가설을 증명하기 위해 어떤 식으로 연구를 진행했는지 간단하게 언급
본 연구의 독창성을 bullet points 3-4개로 요약 (매우 중요). The main contribution of this study can be summarized as follows:
본문의 내용을 전체적으로 요약해 준다는 느낌으로 작성.
본 연구의 독창성을 다시 한 번 강조.
본 연구의 한계점 언급.
한계점과 연계해서 앞으로 계획하고 있는 연구 주제 2-3개 언급할 것. 이 경우 “데이터를 확장하겠다”던지 “다른 파라미터를 써보겠다”던지 하는 단순하고 무성의한 내용은 피하고 제대로 된 계획을 언급할 것.
반드시 복수 - Acknowledgements
논문을 처음 제출하는 경우에는 Funding source만 포함하고 리뷰어들에 대한 감사 인사는 포함하지 말 것. 리뷰도 하지 않았는데 감사하다고 하는 것은 nonsense.
리비전에는 반드시 리뷰어들에 대한 감사 문구를 포함할 것.
그때 그때 마다 정리를 하며 논문을 쓸 것. 나중에 정리 한다고 미루면 실수가 많아 짐.
Reference개수는 특별한 경우를 제외하곤 최대 35개를 넘기지 말 것. 25개~30개가 적당.
최신 저널 위주로 reference를 작성할 것 (최신: 최근 3년 이내).
제출하는 저널에서 출간한 논문 20% 내외 포함할 것.
저널 마다 형식이 다르므로 저널 홈페이지를 통해 형식 꼭 확인할 것.
논문 적정 페이지 수는 딱히 정해져 있지 않으나 reference 포함 28 ~ 32 pages가 적당함. 최근 Machine Learning, AI 관련 논문의 길이는 짧아지고 있는 추세.
너무 극단적인 표현은 쓰지 말 것. 각자 판단하여 리뷰어에게 오만하게 보일 가능성이 있는 단어들은 쓰지 말 것. 예: Novel, Excellent, Very, Really, …
제안하는 방법론이 있다면 이름을 신중하게 만들어 professional 보이도록 할 것. 제안 방법의 약자로 표기할 경우 약자의 느낌도 잘 살려야 함.
기존 방법론의 설명은 최대한 핵심 위주로. 너무 장황하게 하면 오히려 마이너스.
설명이 부족하다고 느낄 경우에는 여러 문장으로 확인 설명하기 보다는 처음 설명한 문장을 최대한 명확하게 쓰려고 노력해야 함. 같은 설명이 반복적으로 나오면 매우 unprofessional해 보임.
처음에만 전체 용어를 다 써 주고 이후에는 약자 만을 써야 함. 불안하더라도 그렇게 해야 함.
예: The convolution neural network algorithm (CNN) is ~ : 여기서 CNN이라고 약자 정의를 했으면 이후 논문에서는 CNN으로만 쓸 것.
다만 초록에서 약자를 썼더라도 본문에서는 처음 등장하는 곳에 다시 전체 용어를 명시하고 약자를 정의해 주면 좋음.
논문에서 2-3번 정도만 언급되는 용어는 약자로 표기하지 말고 full로 쓸 것. 즉, 본 논문에 핵심이 되지 않은 용어들은 가능한 약자로 표기하지 말 것.
영문 약자를 쓸 경우 대문자로 단어를 시작하지 말고 소문자로 시작할 것.
Convolution Neural Network (CNN) -> X
convolution neural network (CNN) -> O
단, 고유명사 (사람이름, 지명 등은 대문자)는 대문자로 표기.
예: We used a hidden Markov model (HMM) in this study.
0-10은 알파벳으로 표기. 즉 zero, one, two, three, four, five, six, seven, eight, nine, ten으로 표기해야 함.
11 이상은 아라비아 숫자로 표기. 즉, 11, 12, 13 ….
하지만, 10이상의 숫자라도 문장 맨 처음에 올 경우 알파벳으로 표기.
예: Sixty five observations are included in the training set.
년도는 문장 맨 앞에 오더라도 아라비아 숫자로 표기.
예: 2018 will be a great year to study machine learning.
수식 (Equation) 내 설명이 필요한 기호가 있을 경우 보통 다음 줄에 where로 정의하는데 이경우 Equation뒤에는 comma (,)를 꼭 찍어야 함.
예: y=2x+1,
where x represents the input variable.
where 앞 혹은 뒤에 comma (,)를 찍으면 절대 안 됨.
수식 표기는 전 논문에 걸쳐 일치시킬 것. 예를 들어 수식에서 이탤릭으로 표기했으면 본문에서도 이탤릭으로 표기하고, bold체로 표기했으면 bold체로 표기할 것.
논문에서 그림과 테이블은 매우 중요함.
논문의 핵심 아이디어와 결과를 한눈에 볼 수 있도록 표현하는 수단.
매우 정성 들여서 그림과 테이블을 만들 것.
그림과 표의 해석은 보이는 데로만 할 것이 아니라 그 결과가 궁극적으로 전달하는 본질이 무엇인지를 설명해야 함.
외부 (인터넷 등) 그림을 가져오면 절대 안됨. 꼭 필요한 경우 출처 반드시 명시 할 것. 시간이 걸리더라도 외부 그림을 이해하고 본인이 다시 그리면 좋음.
본인의 과거 논문에서 그림을 가져올 경우에도 반드시 출처 명시 할 것. 이 경우에도 가능하면 다시 그리면 좋음.
그림은 논문에서 보았을 때 뚜렷해야 함 (흐릿한 그림은 잘 보이도록 해상도 조절할 것).
그림 안에 있는 문장은 (라벨, 레전드 포함) 충분히 읽을 수 있을 정도의 크기여야 함.
그림에 x축과 y축 label을 꼭 표기할 것.
그림 안에 있는 문장들도 최대한 문법에 맞게 신경 써서 쓸 것. 그림 안에는 가능한 문장을 쓰지 말 것.
그림이나 테이블에서 제안한 방법론과 다른 방법론을 비교할 경우 제안방법론을 가장 앞이나 뒤에 위치할 것. 중간에 위치해서 헷갈리게 하지 말고.
제안 방법이 눈에 쉽게 들어 오도록 제안방법론 이름 아래 “proposed”이라고 표시하면 좋음. 예: DFGR (proposed)
원칙적으로 follow (following)가 포함된 문장은 콜론(:)으로 끝낼 것.
예1: The following equation indicates the sum of squares of errors:
예2: The sum of squares of errors can be represented as follows:
보통 Introduction 마지막 paragraph에 쓰는 논문 전체 요약 명시 문구에는 관례 상 콜론(:)을 쓰지 않음.
예: The remainder of this paper is organized as follow.
Table, Figure, Equation, Section은 문장 중간에 오더라도 항상 대문자로 쓸 것. 어색하더라도 반드시 대문자로 쓸 것.
예: The moment matching method can be explained by Figure 2, Table 1, and Equation 3.
“a”와 “an”은 모음(a, e, i, o, u: 아, 에, 이, 오, 우)으로 시작하는 단어가 뒤에 오느냐 아니냐를 기준으로 쓰는 것이 아니라 모음 발음이 나느냐 그렇지 않느냐를 기준으로 씀.
예1: a NLP work (X), an NLP work (N은 자음이지만 “엔”이라는 “모음” 발음).
예2: an one-dimensional (X), a one-dimensional (O) (O는 모음이지만 “원”이라는 “자음” 발음).
Introduction (혹은 Related works)에서 기존 방법론들 리뷰는 보통 과거형으로 표기.
예: A group lasso was proposed to select features using predefined feature group information (reference).
방법론 설명은 현재형으로 표기.
실험결과는 과거형으로 표기.
논문에서 미래형은 원칙적으로 쓰지 말 것.
세 가지 이상을 and로 연결하는 상황에서는 마지막 and 앞에 comma를 붙여 줌.
예: Three distributions such as normal, gamma, and lognormal were used.
두 명사가 결합해 형용사 역할(뒤에 명사를 수식)을 할 경우 하이픈으로 묶어 줌.
예1: In control observations (X), In-control observations (O) (In과 control 두 단어가 observations을 수식하는 형용사 역할을 하고 있으므로 하이픈을 써야 함)
예2: This situation indicates in-control (X), This situation indicates in control (O). (이 경우에는 in과 control이 합쳐서 형용사 역할을 하고 있지 않고 보어 역할을 하기 때문에 하이픈을 붙여 주면 안됨).
예3: The content-based filtering~ (content와 based가 합쳐 filtering을 수식하는 형용사의 역할을 하므로 하이픈을 써야 함: 보통 based, driven 앞에는 하이픈을 붙임).
Every, everybody, everyone, each → 항상 단수
Half of…, A third of…, All of…, A majority of…, Most of…, Some of…, → of 다음에 나오는 명사의 수 일치
예1: Half of the students in this school are rich
예2: Half of the furniture in this school is more than 20 years old
Neither A nor B, Either A or B → B에 수 일치
예: Neither ~, Either ~ → 항상 단수, Neither of the two brothers smokes.
Units of distance, time, weights, and money → 항상 단수
예: Forty-five miles is a long way to walk, Five hours seems very long for an exam
항상 단수: Clothing, Furniture, Population, Homework, Information, Luggage, Baggage, Equipment, Knowledge, News, Whatever, Whoever
항상 복수: Scissors, Glasses, Pants, People, Military, Police, Cattle, Binoculars, The elderly, The rich, The poor
Data는 복수! (Datum이 단수이나 논문에서 잘 쓰지 않음). Data를 단수로 쓰고 싶은 경우에는a (the) data set으로 표기하면 됨.
Dataset vs. Data set: 약간의 이견은 있으나 경험 상 후자인 Data set (즉, Data와 set사이에 스페이스)을 선호함.
Since, As 보다는 Because.
Due to, Owing to 보다는 Because of.
Even though 보다는 Although.
But 보다는 However.
Also 보다는 In addition, Furthermore, Further, Moreover.
So 보다는 Hence, Thus, Therefore.
소수점 이하 자리 수는 경우에 따라 다름.
어느 자리 까지가 의미 있는지를 보고 판단. 소수점 이하 자리수가 많이 필요한 경우는 왜 이렇게 길게 표기해야 하는지 이유를 적어주면 좋음.
보통은 소수점 이하 2자리수면 충분함.
In fact = Actually = Indeed.
As a result = Consequently = As a consequence = For this reason.
In contrast = By contrast = Conversely.
Similarly = Likewise.
For example, = For instance, = As an illustration,.
In other words,. = That is,.
More precisely = Specifically.
At the same time = Meanwhile = In the meantime = Concurrently = Simultaneously.
As shown in Table 5, ….
As can be seen in Figure 5, ….
As can be seen from the data in Table 7,….
As revealed by the data in the graph,….
As demonstrated in previous studies,….
As mentioned in the previous section,….
As claimed in his previous work,….
… can be seen in Figure 1.
… is illustrated in Table 6.
… is represented in the data in Table 8.
… is shown in Figure 10.
논문 많이 써야 하나? (量) 좋은 논문을 써야 하나? (質) 좋은 논문을 많이 쓰면 가장 좋음.
좋은 논문은 쉽게 쓸 수 없어 → 습작을 통해 수 많은 시행착오를 거친 후에 탄생.
처음부터 걸작을 쓰겠다고 생각하지 말고 일단 뭐라도 쓸 것.
글쓰기가 부족하다고 생각 드는 사람은 영문 논문만 고집하지 말고 한글 논문을 먼저 써 볼 것.
논문을 잘 쓰기 위해서는 좋은 논문을 많이 읽고 따라 하는 것부터 시작.
언어가 중요한 것이 아니라 논리적인 생각이 더 중요함. 논문의 흐름이 맞지 않으면 아무리 잘 쓴 글이라도 인정 받지 못함.
졸업 후 교수가 목표인 사람은 본인을 대표할 수 있는 논문 최소 3개는 써야 함.
졸업 후 회사 취직이 목표인 사람은 영문 논문 보다는 한글 논문을 가치 있게 쓰는 것이 중요.
“좋은 논문은 많이 읽히는 논문” 이라는 생각으로 독자들의 관점에서 성의 있게 쓸 것.