brunch

You can make anything
by writing

C.S.Lewis

by gimmesilver Jan 03. 2019

'실전 예측 분석 모델링' 오역 정리 (진행 중)

    새해를 맞이하여 예전에 사뒀던 'Applied Predictive Modeling' 이라는 책의 번역본을 읽기 시작했는데 비문과 오역 및 오타가 너무 많아 괴롭습니다. 

    번역자는 데이터 분석 분야 종사자임에도 불구하고 전반적인 내용을 전혀 이해하지 못하고 번역한 것으로 강하게 의심됩니다. 게다가 문장 구조를 완전히 잘못 번역한 경우가 너무 많습니다. 접속사를 엉뚱하게 번역하거나, 주체와 객체 혹은 수단과 목적을 반대로 번역한 경우도 많으며 특히 의도적으로 수행해야 할 작업과 자연적으로 발생하는 현상이나 데이터의 특성을 설명하는 문장을 반대로 혹은 자기 멋대로 번역한 문장이 많아 독자에게 완전히 잘못된 내용을 전달하고 있습니다. 심지어 표나 그림, 수식 등에도 오탈자가 너무 많아서 출판사가 과연 기초적인 검수를 하긴 했는지 의심스럽습니다. 출판사와 번역자 모두에게 매우 강한 유감을 표합니다. 

    출판사에서 정오표(http://www.acornpub.co.kr/acorn_guest/%EC%8B%A4%EC%A0%84%EC%98%88%EC%B8%A1%EB%B6%84%EC%84%9D%EB%AA%A8%EB%8D%B8%EB%A7%81_%EC%A0%95%EC%98%A4%ED%91%9C.pdf)를 올려 놓긴 했지만 이걸로는 택도 없어서, 잘못 번역된 내용 위주로 여기에 정리해보려고 합니다.


2장

- 45페이지 둘째줄 (번역을 잘못했음. 정보가 잔차로부터 영향을 받는다는게 아니라 잔차가 중요한 정보라는 의미임)

'회귀 모델의 경우 숫자값을 예측한다면, 정보가 잔차로부터 많은 영향을 받아 만들어진다는 문제가 있다.'

 => '숫자값을 예측하는 회귀 문제에서 잔차는 중요한 정보원이다.'

원문: For regression problems where we try to predict a numeric value, the residuals are important sources of information.


3장

- 63페이지 5번째줄 (예측 변수 각각을 사용할 수 있다가 아니라 이 중에서 하나를 선택해서 사용할 수 있다고 번역해야 함)

'따라서 이 예측 변수들의 선형 조합이나 각 예측 변수를 원예측 변수 대신 사용할 수 있을 것이다.'

=> '예측 변수 중 하나 혹은 이들의 선형 조합을 원래의 예측 변수 대신 사용할 수 있을 것이다.'

원문: either predictor or a linear combination of these predictors could be used in place of the original predictors.


- 63페이지 10번째줄 ('retained its popularity'를 '인기를 유지한다.' 가 아니라 '정보를 유지한다.'라고 잘못 번역했음)

'PCA의 기본적인 장점이자 데이터 축소 방법이 모집단의 정보를 유지할 수 있는 이유는 연관되지 않은 성분들을 만들어 내기 때문이다.'

=> 'PCA의 주요 장점이자 데이터 축소 기법으로 인기를 유지하고 있는 이유는 상관 관계가 없는 성분들을 만든다는 점이다.'

원문: The primary advantage of PCA, and the reason that it has retained its popularity as a data reduction method, is that it creates components that are uncorrelated.


- 63페이지 22번째줄 ('variability'는 문맥상 '정보량'이 아니라 '가변성'이라고 번역하는 것이 더 맞음)

'정보량을 최대화한' 

=> '가변성을 최대로 하는'

원문: that maximize variability


- 74페이지 15번째줄 (번역이 어색함)

'하지만 선형 회귀 외에 이 방법은 충분하지 않은 많은 이유가 있다.'

=> '선형 회귀가 아니라면, 이 방법은 다음과 같은 몇가지 이유로 인해 부적절할 수 있다.'

원문: Beyond linear regression, this method may be inadequate for several reasons:


- 78페이지 5번째줄 (번역이 어색함)

'결론은 수동적 범주화를 통해 해석력을 눈에 띄게 상승시키려면, 보통 성능을 어느 정도 포기해야 한다는 것이다.'

=> '정리하자면, 수동 범주화를 통해 해석력을 높힐 경우 대개 성능이 크게 하락하는 대가를 치른다.'

원문: The bottom line is that the perceived improvement in interpretability gained by manual categorization is usually offset by a significant loss in performance.


- 78페이지 11째줄 (번역을 반대로 했음. 문맥상 해석력보다는 예측력이 더 중요한 경우에 대한 설명임)

'복잡한 모델이 충분히 유효하다고 해도, 예측 성능보다 해석력이 필요한 모델에서는 적합하지 않을 수 있다.'

=> '복잡한(역주: 해석력은 떨어지지만 성능은 좋은) 모델을 적절히 검증할수만 있다면, 해석력 보다는 예측 성능에 중점을 둔 모델을 사용하는 것이 적절할 것이다.'

원문: As long as complex models are properly validated, it may be improper to use a model that is built for interpretation rather than predictive performance.


- 86페이지 밑에서 3째줄

'쉼표(,)' => '콤마(:)'


4장

- 92페이지 6번째줄 (번역 잘못했음)

'이런 가정하에서 가장 좋은 예측 모델을 만들기 위해 가까이 있는 데이터를 사용한다.'

=> '우리는 최선의 예측 모델을 찾기 위해 이런 가정 하에 작업하면서 보유한 데이터를 사용해야 한다.'

원문: Working under these assumptions, we must use the data at hand to find the best predictive model. 


- 97페이지 5번째줄 (추정값이 좋아지는게 아니라 예측 성능을 지나치게 낙관적으로 추정한다는 의미임)

'오차율이 클 경우에 성능 추정값은 매우 좋아진다.'

=> '오류율이 높으면 성능을 지나치게 낙관적으로 추정할 가능성도 커진다.'

원문: the apparent error rate can produce extremely optimistic performance estimates.


- 101페이지 밑에서 5번째줄 (문맥 상 'unbiased'는 '균형 잡힌' 보다는 '비편향적인' 이라고 번역하는 것이 더 좋음)

'균형 잡힌 방법' 

=> '비편향적인 방법'

원문: An unbiased method


- 102페이지 12번째줄 ('leave-one-out error rate'는 공식 용어이므로 이에 맞게 번역해야 함)

'선형 회귀 모델에서는 1개만 남기는 방식의 오차율을 추정하는 공식이 있다.'

=> '선형 회귀 모델의 경우 '단일 잔류 오류율 (leave-one-out error rate)'을 추정할 수 있는 공식이 있다.'

원문: For linear regression models, there is a formula for approximating the leave-one-

out error rate.'


- 104페이지 7째줄 ('characterized by its error rate'는 '오차율로 성능이 측정되는' 이라고 번역해야 함)

'한 가지 예로, 오차율로 분류 모델을 찾는 경우, 632기법은 아래 식을 사용한다.'

=> '예를 들어, 오차율로 성능이 측정된 분류 모델에서는 아래에 나온 수식처럼 '632 기법이' 사용될 것이다.'

원문: For example, if a classification model was characterized by its error rate, the 632 method would use


- 105페이지에서 109페이지 '4.6 최종 튜닝 변수 선정' 전체

'금액' 이라고 번역되어 있는 단어의 원문은 'cost'이며 맥락 상 '비용'이라고 번역하는 것이 더 적절함


5장

- 130페이지 7번째줄 ('while' 은 인과 관계가 아니라 대조 관계로 번역해야 함)

'이 값은 해석을 붙이기가 매우 쉬우므로'

=> '이 값은 쉽게 해석할수는 있지만'

원문: While this is an easily interpretable statistic, 


- 130페이지 12번째줄 ('may be acceptable'은 '무시할 수 있다.' 가 아니라 '허용할 수 있다.' 라고 번역해야 함)

'설명에 따르면, 모델이 잘 동작하는 경우 예측에서의 이런 구조적 편중은 무시할 수 있다.'

=> '모델이 이와 달리 잘 동작한다면 이런 구조적인 예측 편향은 맥락에 따라 허용할 수 있다.'

원문: Depending on the context, this systematic bias in the predictions may be acceptable if the model otherwise works well.


6장

- 136페이지 8째줄 ('mathematical nature'는 '수학적 감각' 이 아니라 '수학적 성질' 이라고 번역해야 하며, 이 외에도 전체 문장을 완전히 잘못 이해하고 번역했음)

'이런 류의 모델의 또 다른 장점으로는 수학적 감각으로 계수의 표준 오차를 구해 모델 잔차의 분포에 대해 어떤 가정을 할 수 있도록 한다는 것이다.'

=> '이런 류의 모델이 갖는 또 다른 장점은, 우리가 잔차를 특정 분포로 가정하기만 하면, 그 수학적 성질을 이용해 계수의 표준 오차를 구할 수 있다는 점이다.'

원문: Another advantage of these kinds of models is that their mathematical nature enables us to compute standard errors of the coefficients, provided that we make certain assumptions about the distributions of the model residuals.


- 136페이지 6.1장 바로 윗 문장 (번역이 어색함)

'이런 데이터의 경우에는 7,8장에서 다룰 예측 변수와 응답 변수 간의 예측 관계를 파악하는 방법이 더 도움이 될 것이다.'

=> '이런 데이터의 경우 7장과 8장에서 소개하는 방법이 예측 변수와 응답 변수 간의 관계를 더 잘 예측할 것이다.'

원문: If this is the case for the data, then the methods detailed in Chaps. 7 and 8 will better uncover the predictive relationship between the predictors and the response


- 142페이지 11번째줄 (편집 오류)

'하지만 예측 변수값의 단일 집합은 조건 (1)의 경우에는 ... 공선성을 갖는 예측 변수를 제거하는 방식으로 만들 수 있다.'

=> 이 문장은 편집 오류로 인해 문장의 위치가 아예 잘못되었다. 같은 페이지의 20째줄에 있는 '... 단일한 회귀 계수는 존재하지 않을 것이다.' 다음 위치로 가야 한다. 


- 142페이지 15번째줄 (번역 이상함. 'fatal flaws'는 '독이 묻은 발톱'이 아니라 '치명적인 결함'임)

'동시에 해석 가능하다는 특성은 독이 묻은 발톱을 숨기고 있는 것일 수도 있다.'

=> '이러한 특징은 해석을 가능하게 만들기도 하지만 동시에 치명적인 결함을 잠재적으로 발생시키기도 쉽다.'

원문: At the same time, the characteristics that make it interpretable also make it prone to potentially fatal flaws.


- 143페이지 18째줄 (번역 이상함. 원래 문장은 관측 데이터보다 변수 개수가 많아지면 역행렬을 이용해 회귀계수를 구하는 'OLS (Ordinary Least Squares) 방법'을 사용할 수 없다는 것을 의미함)

'하지만 원예측 변수의 수보다 커지지만, 실제로 사용하는 것은 이 항목 전부 또는 일부다. 이런 접근 방식을 취하면 데이터 행렬에 관측한 내용보다 더 많은 예측 변수가 들어가므로 여기에 다시 역을 취할 수 없게 된다.'

=> '하지만 원래의 예측 변수 개수가 많을수록 이런 항을 일부 혹은 전부 포함하는 것은 덜 실용적이다. 이런 방법을 사용하면 데이터 행렬에 관측치보다 더 많은 예측 변수가 포함될 수 있어서 이로 인해 역행렬을 구할 수 없게 된다.'

원문: But the larger the number of original predictors, the less practical including some or all of these terms becomes. Taking this approach can cause the data matrix to have more predictors than observations, and we then again cannot invert the matrix


- 144페이지 3째줄 (번역 이상함)

'또한 후버 함수에서는 잔차가 기준값 이상인 경우 관측값과 예측값이 "작고", 차이 형태가 간단하다면 잔차의 제곱을 사용한다.'

=> '또한 후버 함수는 관측치와 예측치의 차이가 작을 때는 잔차의 제곱을, 일정 크기 이상일때는 단순히 그 차이값을 사용한다.' 

원문: Also, the Huber function uses the squared residuals when they are "small" and the simple difference between the observed and predicted values when the residuals are above a threshold


- 145페이지 6째줄 (번역 잘못되었음. '~해야 한다.' 라고 해석할만한 이유 없음)

'예측 변수의 상관관계 문제를 나타내려면 비수소 원자의 수와 수소 원자 간 결합 수를 나타내는 기술자의 조합에 선형 모델을 맞춰야 한다.'

=> '예측 변수 간의 상관관계 문제를 설명하기 위해 비수소 원자의 수와 수소 원자 결합 수에 관련된 설명자 조합을 적합하는 선형 모델을 만들었다.' 

원문: To illustrate the problem of correlated predictors, linear models were fit with combinations of descriptors related to the number of non-hydrogen atoms and the number of hydrogen bonds.


- 147페이지 10째줄 ('not necessarily ensure'는 '~해야할 필요가 없다.' 가 아니라 '~을 보장하지 않는다.' 라고 번역해야 함)

'하지만 이 과정에서 예측 변수의 선형 조합이 예측 변수와 연관성이 없음을 확인해야 할 필요가 없다.'

=> '그러나 이 방법은 예측 변수의 선형 조합이 다른 예측 변수와 상관성이 없다는 것을 보장하지는 않는다.'

원문: However, this process does not necessarily ensure that linear combinations of predictors are uncorrelated with other predictors.

 

- 147페이지 21째줄 ('does not necessarily produce' 는 '만들어 내지 못할 수 있다.' 가 아니라 '꼭 생성해 주는 것은 아니다.' 라고 번역해야 함)

'이런 경우, 이 두 단계에 걸친 회귀 방법(차원 축소 후 회귀)에서 예측 모델을 만드는데 성공했다면, 이는 금방 잘못 될 수 있다. 좀 더 자세히 말하면, PCA를 통한 차원 축소에서 응답 변수를 나타날 수 있는 새로운 예측 변수를 만들어 내지 못할 수 있다.'

=>'이런 조건 하에서 2단계 회귀 방법(차원 축소 후 회귀)이 성공적으로 예측 모델을 만들더라도 이것은 쉽게 잘못될 수 있다. 즉, PCA를 이용한 차원 축소가 응답 변수를 설명하는 새로운 예측 변수를 반드시 생성해주는 것은 아니다.'

원문: While this two-step regression approach (dimension reduction, then regression) has been successfully used to develop predictive models under these conditions, it can easily be misled. Specifically, dimension reduction via PCA does not necessarily produce new predictors that explain the response.


- 149페이지 밑에서 4째줄 (번역 잘못되었음)

'즉, PLS는 예측 변수의 분산을 최대로 하는 성분을 찾는다는 것이다. 이때 이 성분은 응답 변수와 상관관계가 가장 커야 한다.'

=> '즉, PLS는 예측 변수의 분산을 최대로 하는 동시에 응답 변수와의 상관성을 최대로 하는 성분을 찾는다.'

원문: This means that PLS finds components that maximally summarize the variation of the predictors while simultaneously requiring these components to have maximum correlation with the response.


- 155페이지 1째줄 (번역 잘못되었음. 'variation'은 '분산' 이 아니라 '변형'이라고 번역해야 함)

'PLS의 알고리즘 분산'

=> 'PLS의 변형 알고리즘'

원문: Algorithmic Variations of PLS


- 156페이지 18째줄 (번역 잘못되었음. 문맥상 '인과' 관계를 의미하는 것이 아님)

'하지만 많은 문제들로 인해'

=> '하지만 많은 문제에서'


- 156페이지 20째줄 (번역 잘못되었음. 단점을 지적한게 아니라 단점을 해결하기 위한 방법을 제시한 것임)

'여러 연구에서 이런 유형의 예측 변수 공간-응답 변수 간의 상관관계를 찾는데 있어서 PLS의 이런 단점을 지적했다.'

=> '이러한 예측 변수 공간 및 응답 변수 관계를 찾는데 있어 PLS가 갖고 있는 단점을 해결하기 위한 방법을 제안하는 여러 연구가 있다.'

원문: Several authors have attempted to address this shortcoming of PLS in order to find this type of predictor space/response relationship.


- 157페이지 13째줄 (번역 잘못되었음. 원문의 의도는 다중공선성이 심각할 경우 bias error가 다소 커지더라도 변수 선택등을 통해 모델을 단순화시키는 것이 더 좋을 수 있다는 의미임)

'예측 변수 간의 상관계수가 큰 경우, 분산이 매우 커진다. 편향적인 모델로 인해 발생하는 공선성 문제를 해결하면, 총MSE가 좋은 회귀 모델을 구축할 수 있다.

=> '예측 변수 사이의 상관성이 크면 분산이 매우 커지는 결과를 야기할 수 있다. 공선성 문제를 해결하기 위해 편향된 모델을 사용하는 것은 회귀 모델의 총 MSE를 (오히려) 향상시킬 수 있다.' (역주: 다중공선성이 있는 경우 모델을 좀 더 단순하게 만들면 편향 오류는 다소 커질 수 있지만 상대적으로 분산 오류를 더 크게 줄일 수 있어 오히려 전반적인 MSE는 더 줄일 수 있다는 의미임)

원문: One consequence of large correlations between the predictor variances is that the variance can become very large. Combatting collinearity by using biased models may result in regression models where the overall MSE is competitive.


- 159페이지 4째줄 (주체와 객체를 반대로 번역했음)

'[그림 6.16]에는 RMSE가 어떻게 λ을 바꾸는지가 나와 있다.'

=> '[그림 6.16]에는 λ 값에 따라 RMSE 가 어떻게 변하는지 나와 있다.'

원문: Figure 6.16 shows how the RMSE changes with λ.


7장

- 180페이지 7째줄 (번역 잘못했음. 'optimistic'은 문맥상 '긍정적' 이 아니라 '낙관적 추정' 이라고 번역해야 함)

'명확한 오차율은 매우 긍정적인 수 있다(이는 4.1장에서 논의했다).

=> '(4.1장에서 논의했듯이) 오차율이 클수록 모델의 성능을 낙관적으로 추정할 가능성도 크다.'

원문: The apparent error rate can be highly optimistic (as discussed in Sect. 4.1)


- 180페이지 17째줄 (번역 엉망임. 전체 문장을 이해하지 못하고 번역한 것 같음. 의도적인 조치와 자연적으로 발생하는 현상에 대한 구분을 전혀 하지 않고 번역했음)

'정규화한 값이 증가함에 따라 적합화된 모델은 보다 평활화되고 훈련 세트에 덜 과적합된다. 물론 이 인수값은 정의돼 있어야 하고, 은닉 단위에 따른 튜닝 인수가 된다. λ 의 허용 가능 범위는 0과 0.1 사이다. 또한 회귀 인수가 더해짐에 따라 동일한 척도가 된다. 이에 따라 예측 변수는 모델링 전에 중심화 및 적도화된다.

=> '정규화 값 (λ) 이 증가함에 따라 모델은 더 부드럽게 적합되며 학습 데이터에 과적합될 가능성도 낮아진다. 물론 이 매개 변수의 값은 구체적으로 지정해줘야 하며, 은닉 단위 (hidden unit) 의 개수와 함께 모델의 튜닝 파라미터이다. λ 는 0에서 0.1 사이가 합리적이다. 또한 (위 식에서) 회귀 계수는 합산이 되기 때문에 모두 같은 척도를 가져야 한다. 따라서 모델링을 하기 전에 모든 예측 변수에 대해 중심화와 척도화를 수행해야 한다.'

원문: As the regularization value increases, the fitted model becomes more smooth and less likely to over-fit the training set. Of course, the value of this parameter must be specified and, along with the number of hidden units, is a tuning parameter for the model. Reasonable values of λ range between 0 and 0.1. Also note that since the regression coefficients are being summed, they should be on the same scale; hence the predictors should be centered and scaled prior to modeling.


- 180페이지 23째줄 (번역 잘못했음. 역시 의도적인 조치와 자연적인 현상을 전혀 구분하지 않고 번역했음) 

'또한 다른 모델 구조는 층 간에 양방향으로 반복적으로 오가는 형태다. 따라서 이 모델들을 실제로 사용하는 사람은 이후 모델을 최적화할 때 객체 간 특정 연결들을 제거해야 할 것이다.

=> 또한 레이어 사이를 양방향으로 오가는 반복 구조를 갖는 모델도 있다. 이런 모델을 사용하는 실무자들은 모델을 좀 더 최적화하기 위해 특정 객체 간의 연결을 제거하기도 한다. (역주: 딥러닝 기법 중 drop-out 을 의미하는 것 같음)

원문: Also, other model architectures have loops going both directions between layers.

Practitioners of these models may also remove specific connections between objects to further optimize the model.


-181페이지 10째줄 (번역 잘못했음. 'adversely affected by'는 '만들어 내다.' 가 아니라 '~에 의해 악영향을 받다.' 로 번역해야 함)

'하지만 이 모델들은 때때로 (모델 변수 최적화를 위해 경사도를 사용함으로써) 예측 변수들 간의 높은 상관성을 만들어 내기도 한다.'

=> '이 모델들은 종종 (회귀 계수 최적화를 위해 경사하강법을 사용하기 때문에) 예측 변수 간의 높은 상관성에 의해 악영향을 받습니다.'

원문: These models are often adversely affected by high correlation among the predictor variables (since they use gradients to optimize the model parameters).


- 182페이지 7째줄 ('adaptive'는 '가법' 이 아니라 '적응' 이라고 번역해야 함. '가법'은 'additive' 임)

'7.2. 다변량 가법 회귀 스플라인 모델'

=> '7.2. 다변량 적응 회귀 스플라인'

원문: 7.2. Multivariate Adaptive Regression Splines


- 182페이지 밑에서 6째줄 (번역 이상함)

'예측 변수 변환에 따라 많은 수에 대해 선형 회귀를 사용해도 계산할 수 있다. 여기서 사용한 것과 마찬가지로 일부 MARS 구현에 있어서 각 예측 변수에 대한 단순 선형 항목(경첩 함수가 없는 경우)의 효용성도 구할 수 있다.' 

=> '예측 변수 변환의 특성상 이렇게 많은 수의 선형 회귀도 충분히 계산 가능하다. 이 책에서 사용한 라이브러리를 포함해 몇몇 MARS 구현체들은 각 예측 변수에 대한 단순 선형식 (즉, 경첩 함수 (hinge function) 를 사용하지 않는 경우) 에 대한 유용성도 평가할 수 있다.'

원문: The nature of the predictor transformation makes such a large number of linear regressions computationally feasible. In some MARS implementations, including the one used here, the utility of simple linear terms for each predictor (i.e., no hinge function) is also evaluated.


- 183페이지 밑에서 5째줄 (번역 잘못되었음)

'이 "가지치기" 과정은 각 예측 변수와 추정값이 모델에 반영됨으로써 오차율이 얼마나 줄어드는지를 추정해 이를 평가한다. 이 과정은 반대 방향으로 돌아가지 않으므로 요소를 다시 추가하는 일은 없다. 요소들이 다시 추가된다면, 이 과정을 시작할 때는 중요하다고 여겼던 요소가 제거될 수도 있다.'

=> '이 "가자치기 (pruning)"절차는 각 예측 변수를 평가하며 모델에 추가했을 때 오류율이 얼마나 감소하는지 추정한다. 이 절차는 변수가 추가된 경로를 따라 역 방향으로 진행하지 않는다. (이렇게 하면) 가장 마지막에 추가된 변수는 남아 있을 수 있지만, 시작 단계에서 추가된 중요 변수는 제거될 수 있다.'

원문: This “pruning” procedure assesses each predictor variable and estimates how much the error rate was decreased by including it in the model. This process does not proceed backwards along the path that the features were added; some features deemed important at the beginning of the process may be removed while features added towards the end might be retained.


- 191페이지 1째줄 ('cost' 에 대한 번역이 어색함)

'하지만 금액값을 효과적으로 사용하면 이 문제를 완화하게 돼 모델을 정규화할 수 있다.'

=> '하지만 비용값 (cost value) 을 사용하면 이 문제를 완화하는데 도움이 되도록 모델을 효과적으로 정규화할 수 있다. 

원문: However, the use of the cost value effectively regularizes the model to help alleviate this problem.


8장

- 215페이지 9째줄 (번역이 이상함)

'후자의 경우가 발생하는 이유는 이 모델들은 더 많은 유사 형태의 결과값을 포함하는 사각형 범위를 정의하는 형식의 특성을 갖기 때문이다.'

=> '후자와 같은(예측 성능이 다소 떨어지는) 특징을 갖는 이유는, 이런 모델들이 좀 더 균질한 결과값을 갖는 범위를 정할 때 사각형 형태로 나누기 때문이다. (역주: 즉, 좀 더 정교한 형태로 분류하지 못한다는 뜻이다.)'

원문: The latter is due to the fact that these models define rectangular regions that contain more homogeneous outcome values.


- 229페이지 3째줄 ('identical results' 는 '식별자의 결과'가 아니라 '동일한 결과' 라고 번역해야 함)

'이 데이터에서 SSE와 오차율 감소에 기반한 분기점은 대부분 식별자의 결과를 만드는 것을 알 수 있다.'

=> '이 데이터에서는 트리를 분기할 때 SSE 를 줄이는 방식과 오차율을 줄이는 방식 둘 다 거의 같은 결과가 나온다.'

원문: For these data, splits based on the SSE and the error rate reduction produce almost identical results.


- 233페이지 밑에서 8째줄 (규칙 내용 몇개를 빼먹었고, 전체적인 번역도 이상함)

'[그림 8.10]의 전체 모델 트리를 다시 살펴보면, NumCarbon >= 3.77 조건을 사용하는 모델 10에 해당하는 규칙이 가장 넓은 범위를 차지한다. 이 규칙을 새 모델의 첫 번째 규칙으로 저장한다. 남은 샘플을 사용해 다음 모델 트리를 만들어 본다. 이 때, 가장 넓은 범위를 차지하는 규칙은 MolWight > 4.83로, 앞의 규칙과 유사한 조건을 갖는다. 이 경우, NumCarbon > 2.99 에 대한 샘플은 마지막 2개의 규칙 범위에 들어간다. 많은 동일한 예측 변수가 다른 규칙에서도 사용된다.'

=> '[그림 8.10]의 전체 모델 트리를 다시 살펴 보면, 모델 10에 해당하는 규칙이 NumCarbon <= 3.77 과 MolWight > 4.83 조건을 사용하는 가장 넓은 범위를 갖는다 (역주: 참고로 이 문장은 원문에 오류가 있다. 원문에선 NumCarbon >= 3.77 이라고 되어 있지만 그림이나 표를 보면 NumCarbond <= 3.77이 맞다). 이 규칙이 신규 모델의 첫번째 규칙이 된다. 다음 모델 트리는 남은 샘플을 사용해서 만든다. 이 때 가장 넓은 범위를 포함하는 규칙은 이전 규칙과 유사한 규칙인 NumCarbon > 2.99 이다. 이 경우 NumCarbon > 2.99 에 해당하는 샘플들은 최소한 두 개의 규칙으로 처리할 수 있다. 나머지 규칙들은 SurfaceArea1 (5회), MolWeight (3회), NumCarbon (역시 3회) 와 같이 많은 동일한 예측 변수를 사용한다.'

원문: Looking back at the full model tree in Fig. 8.10, the rule corresponding to Model 10 has the largest coverage using the conditions NumCarbon ≥ 3.77 and MolWeight > 4.83. This rule was preserved as the first rule in the new model. The next model tree was created using the remaining samples. Here, the rule with the largest coverage has a condition similar to the previous rule: NumCarbon > 2.99. In this case, a sample with NumCarbon > 2.99 would be covered by at least two rules. The other rules used many of the same predictors: SurfaceArea1 (five times), MolWeight (three times), and NumCarbon (also three times).


- 234페이지 밑에서 4째줄 ('효과적인 배깅'이 아니라 '배깅이 분산을 효과적으로 감소'시킨다고 번역해야 함)

'효과적인 배깅은 집계 과정에서 예측 분산을 감소시킨다.'

=> '배깅은 집계 절차를 통해 예측 분산을 효과적으로 감소시킨다.'

원문: bagging effectively reduces the variance of a prediction through its aggregation process


- 236페이지 알고리즘 8.1의 3째줄 (원문에 'T' 라는 지시어는 없으며 번역도 이상함)

'T는 샘플의 가지치기되지 않은 트리 모델을 만든다.'

=> '이 샘플을 이용해서 가지치기(prunning) 과정을 거치지 않는 트리 모델을 학습한다.

원문: Train an unpruned tree model on this sample


- 236페이지 밑에서 7째줄 (원문을 일부 빼고 번역했음)

'선형 회귀와 MARS는 앙상블을 사용하는 데도 불구하고 이에 비해 회귀 트리 예측력은 매우 향상되지만, 이미 정해진 데이터를 배깅한 결과는 보다 일반적이다.

=> '구체적인 자료에 대한 배깅 기법의 결과는 다음과 같은 경우가 좀 더 일반적이다. 회귀 트리의 경우 예측 성능이 크게 향상되는 반면, 선형 회귀나 MARS는 앙상블 기법을 사용하더라도 성능 향상이 그리 크지 않다.'

원문: Bagging results for the concrete data are more typical, in which linear regression and MARS are least improved through the ensemble, while the predictions for regression trees are dramatically improved.


- 238페이지 [그림 8.15] (그림이 잘못되었음)

Y축: 'MARS' => 'RMSE' 이다.


- 238페이지 [그림 8.16] (그림이 잘못되었음)

X축: '배깅 반복 수' => '예측 변수'

Y축: 'MARS' => '결과값'

네 개 그래프의 제목: 왼쪽 위에서부터 시계방향으로 'CART', 'MARS', 'Bagged MARS', 'Bagged CART'


- 240페이지 [그림 8.17] (그림이 잘못되었음)

X축: 'RMSE(교차검증)' => '배깅 순회 횟수'

Y축: '횟수' => 'RMSE (교차 검증)'


- 240페이지 밑에서 3째줄 (번역을 반대로 했음)

'하지만 전체 예측 변수가 모든 트리의 모든 분기에 사용되지 않으므로 배깅의 트리는 서로 완전히 독립적이라고는 볼 수 없다.'

=> 그러나 배깅에서 모든 트리는 분기할 때마가 전체 예측 변수가 항상 고려되기 때문에 서로 완전히 독립적이라고 볼 수 없다.'

원문: The trees in bagging, however, are not completely independent of each other since all of the original predictors are considered at every split of every tree.


- 241페이지 3째줄 (번역이 어색함)

'이런 특성은 트리 상관이라 하는데, 이는 예측 변수의 분산을 감소시킴으로써 발생하는 배깅을 방지한다.'

=> '이것은 '트리 상관 (tree correlation)' 이라고 알려진 특성인데 배깅이 예측값의 분산을 최적으로 줄이는 것을 방해한다.'

원문: This characteristic is known as tree correlation and prevents bagging from optimally reducing variance of the predicted values.


- 241페이지 8째줄 (번역 반대로 했음. 배깅을 이용하라는 의미가 아니라 배깅을 이용한 결과를 이후에 설명할 다른 기법을 이용해 개선할 수 있다는 의미임)

'따라서 배깅을 통해 분산을 감소시키는 것이 좋다.'

=> '따라서 배깅을 이용한 분산 감소치는 (좀 더) 개선될 수 있다.'

원문: Therefore, the variance reduction provided by bagging could be improved.


- 241페이지 12째줄 (수단과 목적을 반대로 번역했음. 상관관계를 감소시키면 랜덤 요소를 더할 수 있는게 아니라 랜덤 요소를 더하면 상관관계를 감소시킬 수 있다는 의미임)

'통계적 관점에서 예측 변수 간 상관관계를 감소시킴으로써 트리 구축 과정에 랜덤 요소를 더할 수 있다.

=> '통계적인 측면에서 볼 때, 트리 구축 단계에서 임의성을 더하면 예측 변수 간의 상관관계를 줄일 수 있다.'

원문: From a statistical perspective, reducing correlation among predictors can be done by adding randomness to the tree construction process.


- 242페이지 3째줄 (번역 이상함. 'tree-by-tree basis' 를 '트리 대 트리 기반 (모델)' 이라고 번역했는데, 이게 아니라 배깅과 랜덤 포레스트를 구성하는 트리를 하나씩 놓고 비교한다는 의미임)

'배깅과 비교했을 때, 트리 구축 프로세스에서는 각 분기에서 원예측 변수의 일부만을 구하므로 일반적으로 랜덤 포레스트에서는 많은 트리를 사용하지만, 트리 대 트리 기반보다 계산상 효율적이다.'

=> '랜덤 포레스트는 트리를 구축하는 각 분기 단계에서 전체 예측 변수 중 일부만 평가하면 되기 때문에, 배깅과 비교했을 때, 좀 더 많은 트리를 필요로 하는 대신 각 트리별 계산 효율성은 더 좋다.'  

원문: Compared to bagging, random forests is more computationally efficient on a tree-by-tree basis since the tree building process only needs to evaluate a fraction of the original predictors at each split, although more trees are usually required by random forests.


- 243페이지 11째줄 (번역 어색함)

'이 데이터에서 RMSE에서 실제 차이를 나타냈던 유일한 요인은 최솟값(여기서는 10)을 언제 사용하느냐에 대한 것이었다.'

=> '이 데이터에서는 가장 작은 값(여기서는 10)을 사용한 경우만 유일하게 RMSE가 실질적으로 차이가 났다.'

원문: In these data, the only real difference in the RMSE comes when the smallest value is used (10 in this case).


- 243페이지 13째줄 (번역 잘못되었음. 원문은 그런 희귀 사례를 본 적이 있다는 저자의 경험을 얘기한 것임)

'하지만 여기서는 작은 튜닝 인수값이 최적의 결과를 내는 희한한 경우가 나타났다.'

=> '하지만 우리는 튜닝 파라미터값이 가장 작을 때 가장 좋은 성능이 나온 희귀한 사례를 본 적이 있다.'

원문: However, we have seen rare examples where small tuning parameter values generate the best results.

작가의 이전글 2018년 회고
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari