728x90
반응형

지난 포스트에선 결측 값의 종류에 대해 살펴보았다. 이번 포스트에서는 발생한 결측 값들이 무작위 결측(MAR)이란 가정하에 결측 값을 대체하는 방법에 대해 알아보도록 하겠다.

 

 

결측 값 대체하기 - Single imputation

 발생한 결측 값이 어떠한 사유에 의해 발생한 것으로 추정되는 상태인 비 무작위 결측(NMAR)이 아니라면, 다음과 같은 비교적 단순한 방법으로 결측 값을 대체할 수 있다.

 

 

1. 완전제거법(Listwise deletion)

  • 결측치가 포함된 케이스를 분석 대상에서 완전히 제거하는 방법
  • SPSS, SAS, STATA와 같은 각종 통계 툴에서 기본값(Default)으로 설정돼있는 방법이다.
  • 발생한 결측값이 완전 임의 결측(MCAR)인 경우, 해당 방법을 사용해도 전체 집단을 대표할 수 있으며, 분석의 편향(bias)이 발생하지도 않는다.
  • 한계점
    1. 그러나, 완전 임의 결측(MCAR)이 발생할 확률은 굉장히 낮으므로, 완전제거법으로 만들어진 데이터는 전체 표본을 대변하지 못하고, 편향을 일으킬 수 있다. (Stuart, E. A., Azur, M, Frangakis, C. & Leadf, P.(2009). “Multiple Imputation with Large Data Sets: A Case Study of the Children’s Mental Health Initiative, ”American Journal of Epidemiology, 169(9): 1133-1139.)
    2. 각 변수의 결측치가 완전임의결측이라 일지라도, 서로서로 결측이 있는 행이 달라, 완전 제거법 사용 후, 표본 수가 급격하게 감소할 수 있다.
    3. 정보의 손실과 검정력 약화 문제가 발생할 수 있다.

 

 

 

2. 평균대체법(Mean substitution)

  • 어떤 변수의 결측값을, 관측된 값의 평균값으로 대체
  • 평균 대체법은 특정 정보가 부재할 경우, 평균이 가장 좋은 대푯값이라는 논리에 기인하는 방법
  • 한계점
    1. 정보량 손실을 줄인다는 관점에서는 완전 제거법에 비해 향상된 방법이라고 할 수는 있으나, 여전히 결측치 대체에 불확실성을 고려하지 못한다는 단점이 있다.
    2. 결측치 대신 평균값을 넣기 때문에, 변수의 분산이 감소되고, 공분산과 상관계수의 혼란도 발생할 가능성이 있다. 이로 인해 평균 대체를 가장 좋지 않은 대체방법이라고도 한다.
    3. 예를 들어, 실제 수학 성적의 평균 값은 65점이나, 점수가 매우 낮은 사람들이 자신의 성적을 기재하지 않아 결측 값을 제외한 평균값인 80점을 결측 값 대신 넣는다면, 관측값의 평균에 결측 값 데이터들이 모두 모이게 되고, 그로 인해 분산이 크게 왜곡될 수 있다.

 

 

 

3. 회귀대체법(Regression-based single inputation)

  • Osbome, J. W. (2012). Best Practices in Dataa Cleaning: A Complete Guide to Everything You need to Do Before and After Collecting Your Data. CH 6. Thousand Oaks, CA: Sage
  • 응답자의 응답값과 결측치 간에 강한 상관관계가 존재한다는 가정 하에, 관측치 간의 회귀 방정식을 통해 결측치를 예상한다.
  • 결측치를 포함하는 변수를 종속변수로, 나머지 변수를 독립변수로 하는 회귀식을 구성하고, 이렇게 추정된 회귀식의 예측값으로 결측 값을 대체한다.
  • 변수의 특성(연속형 변수, 범주형 변수, 교호작용항 및 이차항 등)에 따라 회귀식을 구성해 예측력을 향상한다.
  • 한계점
    • 회귀식을 이용한 단일 대체는 결측 값을 실제로 관찰된 값으로 가정하고 분석하므로, 결측값 대체의 불확실성을 고려하지 않는다.
    • 표준오차가 과소추정되어 p-value가 실제보다 작아지고, 신뢰구간이 좁아질 수 있음

 

 

 

4. 핫덱대체법(Hot deck)

  • 비슷한 성향을 가진 케이스의 값으로 결측 값을 대체한다.
  • 자료 분포를 가정하지 않으며, 다른 변수(나이, 성별, 소득 등)가 유사한 응답자의 값을 임의로 추출해 결측치를 대체한다.
  • 한계점
    1. 어떤 변수를 기준으로 대체군을 형성하는지와 어떤 순서로 기준을 적용하는지에 따라 결측값 대체 값이 달라진다.
    2. 대체에 대한 명확한 분포 가정이나 모형을 정의하지 않으므로, 수리적으로 편의(bias)를 계산할 수 없어 대체 결과를 평가하기 어렵다.

 

 

 

5. 가중치 보정법(Weighting)

  • 결측치를 대체하지 않고 관측된 값에 가중치를 부여하여 보정함.
  • Data를 특정 변수(성별, 연령대 등)에 따라 집단을 나누고, 각 집단의 조사설계 시 예상 관측 치수에 대비한 실제 응답한 관측치의 수를 비율로 응답 확률로 정의함
  • 응답 확률의 역수를 가중값으로 관측된 값에 곱해 분석 결과를 보정한다.
  • 한계점
    1. 가중값을 변수의 관측된 값에 곱하므로 해당 변수의 분산이 증가하게 된다.
    2. 무응답과 관련 있는 변수는 편의가 줄어드는 대신 분산이 늘어나는 상충관계지만, 무응답과 관련 없는 변수는 분산만 증가한다.

 

 

 

6. 기댓값 최대화 알고리즘(Expectaion-maximization algorithm, EM 알고리즘)

  • Little, R. J. & Rubin, D. B. (2002). Statistical Analysis with Missing Data. Hoboken, NJ: J Wiley & Sons.
  • 앞서 설명한 5가지 방법을 하나로 묶어 전통적 대체방법(Conventional imputation method)라고 하는데, 이러한 단일 대체 방법들은 각자 편향(bias), 분산 감소 등의 문제를 일으킬 수 있어, 실제 분석결과를 왜곡시킬 위험이 있다.
  • 이러한 문제를 감안하고도 완전한 데이터셋을 만들고자 한다면 EM 알고리즘을 사용하는 것이 유리하다.
  • E는 기댓값(Expectation), M은 최대화(Maximization)를 의미한다.
  • EM 알고리즘은 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대가능도(Maximum likelihood)나 최대 사후 확률(Maximum a posteriori)을 갖는 모수 추정 값을 E-step과 M-step 반복 계산을 통해 찾아내는 알고리즘이다.
  • E-step: 모수에 관한 추정 값으로 우도(Likelihood)의 기댓값을 계산하는 기댓값 단계
  • M-step: E-step의 기댓값을 최대화하는 모수 추정 값들을 구하는 최대화 단계
  • E-step과 M-step 과정을 반복하여 계산 결과가 충분히 수렴하게 되면, 최종 최대가능도나 최대 사후 확률을 통해 결측치의 대체 값을 결정한다.
  • 한계점
    1. EM 알고리즘 방식을 통한 단일 대체는 대체된 값의 분산이 너무 작다는 문제가 존재함

 

 

 

 지금까지 결측 값을 대체하는 방법 중 단일 대체 방법에 대해 학습해보았다. 단일 대체법은 간단하게 말하자면, 결측 값이 지나치게 많지 않은 상태(5% 이하이며, 그 이상은 보다 정교한 방식을 써야한다. 그러나 결측값이 30% 이상 넘어간다면, 정교한 방식을 사용하여도 제대로 추론하지 못한다.)에서 결측 값들을 채워서 완벽한 데이터 셋을 만드는 방법이다.

  • 결측값이 10% 미만이면 무슨 방법을 쓰던 큰 상관이 없으며, 그 이상부터는 회귀 대체를 포함한 보다 정교한 모델을 써야한다고 하지만, 개인적으로는 5% 미만을 생각하고 보다 보수적으로 접근하는 것이 안전하지 않나 싶다.
  • 결측값이 30% 이상 넘어간다면, 가능한 결측값 대체 방식을 사용하지 않기를 바란다(이전에 들었던 내용인데, 정확히 어디서 나온 내용인지 기억 나지 않아 확답은 힘들다만 결측값이 차지하는 비중이 지나치게 크다면, 관측값만으로 결측값을 추정하는데 한계가 생길 수 있으므로, 결측값 대체 방법에 너무 의존하지 않는 것이 좋다.)

 

 이 중 가장 쉽게 쓸 수 있으면서 효과도 썩 나쁘지 않은 방법은 완전 제거법인데, 결측 값을 감안하여 연구 대상인 표본 집단 영역을 보다 좁혀나가며 사용하기에 논리적으로도 큰 문제가 없는 방법이다.

 그러나 결측 값 대체를 해야한다면 일반적으로 회귀대체, EM알고리즘을 사용하며, 이 밖에도 k-nn 군집분석, 의사결정나무 등을 통해서도 결측값 대체를 할 수 있다.

 그러나 이러한 단일 대체 방법은 설정 방법이나 확률에 의존하는 경우 전혀 다른 대체 값이 출력될 위험이 존재하며, 범주형 데이터는 대체 값을 생성하였을 때, 정확도가 매우 낮다는 단점이 있다.

 다음 포스트에서는 이런 단일 대체 방법의 단점을 보완할 수 있는 방법인 다중 대체법(Multiple imputation)에 대해 알아보자.

728x90
반응형

+ Recent posts