728x90
반응형

 단일 대체법(Single Imputation)을 학습해보면서, 대체된 값이 임의의 오차를 가지므로 실제 현상과 차이가 클 수 있다는 것을 알았다. 이번 포스트에서는 이 단일 대체법을 여러 번 실시하여 오차의 불확실성을 고려(앙상블)하는 다중 대체법(Multiple Imputation)에 대해 학습해보겠다.

 

 

다중대체법(Multiple Imputation)

1. 다중대체법의 절차

  • A. 데이터셋 생성: 특정 알고리즘에 따라 결측 값을 대체 값으로 바꾼 m개의 데이터 셋 생성
  • B. 분석과 추정: m개의 완전한 데이터셋을 각각 원하는 분석 기법에 대해 분석하고, 그 결과에서 모수 추정치와 표준오차 계산
  • C. 결합: 각 데이터 셋의 결과를 Rubin's rule에 의해 결합
  • 위 과정을 간략히 이야기해보면 대체값으로 결측 값을 채워 넣은 데이터셋을 m개 만들고, 내가 분석하고 싶은 모델 A를 m개 모델에서 각각 추출한 후, 추정치의 평균을 모델 A의 분석 결과로 뱉어내는 방식이다.
  • 이런 여러 모델을 동시에 사용해 보다 정확한 예측을 하는 기법을 앙상블(Ensemble)이라고 한다.

 

※ Rubin's rule:

  • Rubin, B. D. (1987). “The Calculation of Posterior Distributions by Data Augmentation: Comment: A Non-iterative Sampling/Importance Resampling Alternative to the Data Augmentation Algorithm for Creating a Few Imputations when Fractions of Missing Information are Modest: the SIR algorithm, ”Journal of the American Statistical Association, 82(398): 543-546.
  • 각 데이터 셋 별로 구한 추정치($\bar{Q}$)와 표준오차($\sqrt{T}$)를 결합하는 방법으로, 추정치의 결합은 각 데이터셋으로부터 구한 추정치의 평균으로 정의된다.
  • 추정치($\bar{Q}$)의 분산 $T$는 대체 내 분산(within-imputation variance) $W$와 대체 간 분산(between-imputation variance) $B$의 결합 값으로 정의된다.

$$\bar{Q}=\frac{1}{m}\sum\limits_{i=1}^{m}\hat{Q_i}$$

$$\bar{W}=\frac{1}{m}\sum\limits_{i=1}^{m}\hat{W_i},   B=\frac{1}{m-1}\sum\limits_{i=1}^{m}(\hat{Q_i}-\bar{Q})^{2},   T=\bar{W}+(1+\frac{1}{m})B$$

 

  • 다중 대체법(MI)은 대체될 변수에 대한 사전  분포 가정의 존재 여부에 따라 MVNI, MICE 방식이 있다.

 

 

 

 

2. 다변량 정규분포 대체(Multivariate Normal Imputation, MVNI) 방식

  • 모든 변수들이 정규분포를 따른다는 것을 가정하고 베이지안 접근(Bayesian's approach)에 따라 정규분포에서 대체 값을 획득하게 된다.
  • 이러한 정규성 가정은 이항 변수나 범주형 변수에는 적용 가능성이 떨어질 수 있다는 지적이 있으나, Schafer(1999)는 정규성이 만족하지 않아도 MVNI 적용이 가능하다고 보았다(Schafer, J. (1999). “Multiple Imputation: A Primer”. Statistical Methods in Medical Reseach, 8(1): 3-15).
  • MVMI의 대표적인 방식은 MCMC 방식이 있다.

 

마르코프 연쇄 몬테카를로 방법(Markov Chain Monte Carlo, MCMC)

  • MCMC는 최초에 정규분포를 가정하고 시작하나, 반복이 되면서 바로 전 단계의 정보에 의해서만 현재 단계의 정보가 업데이트되는 마르코프 체인의 특성이 적용된다.
  • 그 결과 최초에 설정한 분포와 상관없이 최종적으로 관측치와 대체된 결측치를 가장 잘 설명하는 분포에 수렴하게 된다.
  • MCMC는 I-step, P-step 두 단계로 구성된다.
  • I-step(Imputation step): 결측치를 대체하는 단계
  • P-step(Posterior step): I-step을 통해 분포의 모수를 추정하는 단계
  • I-step과 P-step이 번갈아 가며 진행되면서, 이 두 단계가 대략적으로 독립적인 추출이 될 때까지 충분히 반복한다.
  • 보다 상세한 내용은 위키피디아를 참고하기 바란다.

 

ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84_%EB%AA%AC%ED%85%8C%EC%B9%B4%EB%A5%BC%EB%A1%9C_%EB%B0%A9%EB%B2%95

 

마르코프 연쇄 몬테카를로 방법 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 마르코프 연쇄 몬테카를로 방법(무작위 행보 몬테 카를로 방법 포함)은 마르코프 연쇄의 구성에 기반한 확률 분포로부터 원하는 분포의 정적 분포를 갖는 표본

ko.wikipedia.org

 

 

 

 

3. 연쇄방정식에 의한 다중대체(Multiple Imputation with Chained Equations, MICE)

  • 모든 변수들이 정규분포에 따른다는 가정이 없는 방식으로, 분포를 가정하지 않기 때문에 MVNI 방식에 비해 유연하게 사용할 수 있다.
  • 결측치의 조건적인 분포가 다른 모든 변수들에 의해 결정되며, 분포 가정이 없기 때문에 서열 척도, 명목형 척도 등 다양한 변수에도 적용할 수 있다.
  • 대표적인 방법으로 FCS 방식이 있다.

 

완전조건부 대체법(Fully Conditional Specification, FCS)

  • 분포에 대한 가정 없이 연속된 회귀방정식을 통해 값을 대체해 나가는 방법이다.
  • FCS는 Fill-in, Imputation 두 단계로 이루어진다.
  • Fill-in(채워 넣기): 모든 변수의 결측치를 변수의 순서대로 채우며, 앞서 채워진 변수는 다음 채워지는 변수의 독립변수로 활용되는 방식이다.
    • 회귀 대체, 평균 대체 등이 활용되며, 범주형 변수나 이항 변수는 로지스틱 회귀모형을 활용한다.
  • Imputation(대체): 앞서 채워진 값들을 변수의 순서대로 대체하는 과정으로, 이 과정을 충분히 길게 하여 대체된 데이터셋에서 결측치가 독립적인 추출이 될 때까지 시행한다.

 

 

 

 

4. MCMC와 FCS 방법 비교

  • FCS는 MCMC에 비해 상대적으로 적은 수의 반복으로도 수렴하며, 5~10번 정도면 충분히 만족스러운 결과를 나타낸다고 한다(Brand, J. P. L. (1999). Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. PhD. dessertation; Erasmus University, Rotterdam.).
  • Lee & Carlin(2010)은 MVNI와 FCS를 완전제거법과 비교하는 시뮬레이션 분석을 통해, 정규성이라는 가정을 동반한 MVNI 방식이 FCS보다 못하다는 증거가 없다고 주장했다.
  • 이와 더불어 FCS와 MVNI 모두 완전제거법에 비해 불편성과 검정력 등에서 우월하며, 특히 MVNI는 이항 변수(binary variable)와 순서형 변수(ordinary variable)에서도 여전히 좋은 방법이라 주장하였다.
  • Lee, K, J. & Carlin, J. B.(2010). “Multiple Imputation for Missing Data: Fully Conditional Specification Versus Multivariate Normal Imputation,” American Journal of Epidemiology, 171(5): 624-632.

 

 

 

 

5. 변수 특성과 결측 값 유형에 따른 대체방법

결측 패턴 대체될 변수유형 대체방법
단조(Monotonic)
패턴
연속형 변수 Monotone regression
Monotone predicted mean matching
Monotone propensity score
서열 변수 Monotone logical regression
명목 변수 Monotone discriminant function
일반적 패턴 연속형 변수 MCMC full-data imputation
MCMC monotone-data imputation
FCS regression
FCS predicted mean matching
서열 변수 FCS logistic regression
명목 변수 FCS discriminant function

 

  • 결측 패턴과 변수의 특성에 따라 회귀분석을 이용한 추정(Regression), 성향 점수법(Propensity score), 로지스트기 회귀분석을 이용한 추정 등을 사용
  • 분포에 대한 가정 여부에 따라 정규분포를 가정하는 경우(MCMC)와 그렇지 않은 경우(FCS)로 구분
  • 결측의 패턴이 단조적이고 연속형 변수의 경우, 다변량 정규분포를 가정하는 모수 방법(parameter)과 성향점수법과 같은 비모수적인 방법(non-parametric)을 모두 사용할 수 있음
    • 단조(Montonic) 패턴: 함수의 진행방향이 항상 일정한 함수 - 단조증가함수 또는 단조감소함수 등
  • 단조 패턴의 서열형 변수의 경우 로지스틱 회귀분석법을 명목형 변수에는 판별 함수법 사용
  • 일반적인 결측 패턴의 경우, 다변량 정규분포를 가정하는 MCMC 방법이나, 모든 변수의 결합 분포가 존재한다고 가정하는 FCS 방법을 활용할 수 있다.
  • 연속형 변수에 대한 대체는 분포에 대한 가정과 상관없이 MCMC, FCS를 모두 사용할 수 있다.
  • 일반적으로 MCMC가 다변량 정규분포 가정을 하고 있으나, 결측 된 정보가 크지 않은 경우, 다중 대체에 의한 추정이 강건한(robust) 결과를 보인다고 알려져 있다. 하지만 연속형 변수와 더불어 서열형이나 명목형 변수에 대한 대체를 하기 위해서는 MCMC보다 FCS가 권장된다.

 

 

 

 지금까지 결측값 대체 기법 중 하나이며, 단일 대체법의 단점을 보완할 수 있는 방법인 Multiple Imputation에 대해 알아보았다. 다음 포스트에서는 R 언어를 활용하여 실제 결측값을 탐색하는 방법과 결측값을 대체하는 방법에 대하여 실습해보도록 하겠다.

728x90
반응형

+ Recent posts