728x90
반응형

지난 포스트에선 결측값이 미치는 영향에 대해 살펴보았다. 이번 포스트에서는 결측값의 종류를 알아보도록 하자.

 

 

결측값의 종류

결측값의 종류는 크게 결측값의 발생에 어떠한 인과 관계가 있느냐(결측값과 측정값이 서로 독립)의 정도에 따라 나눠진다. 후술 할 완전 무작위 결측(MCAR)은 이상적인 수준으로 결측값이 완전 무작위로 발생한 상태이고, 무작위 결측(MAR)은 이 상태일 것을 가정할 수 있는 상태이다. 마지막인 비 무작위 결측(NMAR)은 결측값 발생에 인과 구조가 있을 것임이 확실한 상태라고 보면 된다.

1. 완전 무작위 결측(MCAR: Missing completely at random)

  • 결측값이 변수의 성격과 전혀 무관하게 발생한 경우이다.
  • 자료의 관측된 값과 결측된 값 모두 결측의 발생과 독립적이다.
  • 결측 데이터를 가진 모든 변수가 완전 무작위 결측에 해당하는 경우, 단순 무작위 표본추출을 통해 완벽한 사례를 만들 수 있다.
  • 말 그대로 결측값이 발생한 것에 그 어떠한 의도도 없는 상태로 모든 정보가 데이터에 담겨 있어, 결측값의 존재가 전혀 문제 되지 않는다.
  • 결측값 발생에 대한 이상적인 경우지만, 현실에서 그럴 가능성이 높지 않다.

 

 

 

2. 무작위 결측(MAR: Missing at random)

  • 결측의 발생은 오로지 관측된 값에 의해서만 설명되며, 결측된 값과는 독립일 것이라 가정한 상태이다.
  • 관측된 값으로부터 결측치를 추정하는 것이 가능하게 되므로, 다양한 결측값 대체 방법을 적용할 수 있다.
  • 결측 조건이 다른 변수에 따라 조건부로 발생하는 경우, 결측값이 관측된 데이터가 아니라 관측되지 않은 데이터에 따라 결정된다.
  • 결측값을 추정할 수 있는 상태로, 일반적으로 설문지가 문제없이 작성되었거나, 설문에 대한 응답으로 어떠한 피해도 없을 것임이 설문 대상에게 이해가 된 상태로, 후술 할 결측값 추정 방법은 이 무작위 결측 상태임을 가정하고 시행한다.
  • 즉, 결측된 값의 발생이 어떤 인과 구조에 의해 발생한 것이 아닌 측정된 값들로 추정할 수 있는 상태라는 것을 의미한다.

 

 

 

3. 비 무작위 결측(NMAR: Not missing at random)

  • 결측값이 전혀 임의적으로 발생한 것이 아니며, 관측된 값과 결측된 값 모두에 영향을 받는 상태이므로, 결코 무시할 수 없는 상태이다.
  • 이 경우엔 결측값의 발생에 어떠한 이유가 있는 상태이므로, 결측값에 대해 세세하게 추가 조사를 해야 하는 상태이다.

 

 

 

쉬운 구분 방법

위 내용들만 읽어보면, 전혀 와닿지 않을 수 있는데, 아주 단순하게 이해하려면 다음과 같이 생각해보면 된다.

  • 3. 비 무작위 결측(NMAR): 우울증이 너무 심한 응답자들이 우울증 문항에 허위 기술을 하거나, 정치적, 종교적인 이유로 실제와 전혀 다른 응답을 하는 경우
  • 위 예시처럼 설문지 응답에서 중요한 특정 집단이 의도적으로 자신을 감춰버린 상태!
  • 3번 상태가 아니라면, 이 결측값 발생이 어느 정도 독립적으로 발생하지 않았을까?라고 생각할 수 있는 상태가 되고, 이건 완벽하게 우연히 발생한 결측값이야! 상태가 1. 완전 무작위 결측(MCAR)이 되는 것이다.
  • 즉, 결측값의 발생이 뚜렷하게 어떤 인과 관계가 숨어 있는 상태다 아니다 이것으로 구분 지으면 된다.

 

 

 

 지금까지 결측값의 종류에 대해 알아봤다. 설명을 하다보니 꽤 지저분하다는 느낌이 많이 드는데, 아주 단순하게 1. 이상적인 상태, 2. 정상, 3. 비정상 이렇게 생각해도 된다.

 다음 포스트에서는 이 결측값들을 어떻게 대체할 것인지에 대해 알아보도록 하겠다.

728x90
반응형

+ Recent posts