728x90
반응형

결측 값(Missing value)

: 결측 값은 R에서는 NA, Python에서는 None, NaN으로 출력되며, 값이 기록되지 않았거나 관측되지 않은 경우, 데이터에 저장되는 값을 말한다.

 

 

 

결측 값이 분석 결과에 미치는 영향

1. 표본의 규모가 감소되어 검정력이 감소된다. 

SPSS, SAS, STATA 등과 같은 통계 분석 도구들은 결측 값을 자동으로 제외하는 방식을 기본값(Default)으로 적용하고 있으며, 하나의 변수를 기준으로는 결측 값의 비중이 크지 않더라도, 전체 데이터에서 하나라도 결측 값을 갖는 케이스를 모두 제외하면, 소실되는 표본 비율은 커지게 된다.

  • 표본이 10,000명인 Data가 있다고 할 때, 변수 A의 결측 값이 200명, 변수 B의 결측 값이 400명, 변수 C의 결측 값이 1,000명, 변수 D의 결측 값이 600명이라고 가정할 때, 최대 결측 값은 2,200명 최소 결측 값은 1,000명이다. 
  • Graham. J.W.(2012). Missing Data: Analysis and Edsign. New York : Springer. 참조

 

 

 

2. 표본의 대표성이 낮아져 분석 결과에 편향(Bias)을 가져온다.

무응답의 원인이 설문 문항에 대한 적대적 태도, 무관심, 이해 부족 등에서 비롯된 경우, 표본의 대표성에 치명적인 문제를 일으킬 수 있다.

  • 만약, 고등학교 당시 수학 성적을 물어보는 설문 문항이 존재한다면, 설문조사 대상자가 자신에게 악영향이 있을 것이라 생각하여 자신의 성적을 적지 않거나, 잘못된 성적을 적을 수 있다.
  • 위 경우, 평균이 85점으로 나왔으나, 실제로는 수학 성적이 낮은 사람들이 자신의 성적을 적지 않아 85점으로 나온 것이라, 실제 수학 점수 평균은 70점일 수 있다.
  • Stuart, E. A., Azur, M, Frangakis, C. & Leadf, P.(2009). “Multiple Imputation with Large Data Sets: A Case Study of the Children’s Mental Health Initiative, ”American Journal of Epidemiology, 169(9): 1133-1139. 참조

 

 

 

3. 결측으로 인한 실제 문제의 발생을 식별하기 어렵다.

결측 값은 항상 결과에 영향을 주는 것이 아니라, 영향을 줄 수도 있지만, 때로는 영향을 주지 않을 수도 있다.

  • 결측률이 5% 이하인 경우: 특별한 결측치 보정 없이 분석이 가능하다고 한다.
    • Graham, J. W. (2009). “Missing Data Analysis: Making it Work in the Real World,” Annual Review of Psychology, 60: 549-576
  • 무응답이 1% 이하인 경우 무시할 수 있으며, 1~5%인 경우 보정 처리가 가능하나, 15% 이상인 경우 정교한 보정이 필요하다고 한다.
    • Acuna & Rodriguez, C. (2004). “The Treatment of Missing Values and Its Effect in the Classifier Accuracy,” Classification, Clustering and Data Mining Applications. 639-647.
  • 설문의 종류, 길이, 구조 등에 의해 결측 값이 발생할 수 있다.
    1. 긴 설문조사는 응답자의 중도포기로 인해 상대적으로 뒤에 있는 문항에서 결측이 발생할 수 있다.
    2. 설문지 하단의 문항을 발견하지 못해, 무응답 처리될 수 있다.
    3. 흡연자를 대상으로 하는 설문 문항에서 비흡연자는 결측 값 처리가 되므로, 실제 결측 값이 존재하지 않는 문항이나, 표본 설정을 잘못하여 결측 값이 다량 발생한 것으로 판단될 수 있다.
    4. 위와 같은 문제는 결과에 유의미한 영향을 주지 않을 가능성이 높다.
  • 결측 값의 존재로 인해 발생하는 문제는 수집된 데이터를 통한, 사후 분석에 의해서만 알 수 있으므로, 숨겨진 문제(Hidden problem)이라고도 한다.

 

 

이번 포스트에서는 결측 값이 분석 결과에 미치는 영향에 대해 알아보았다. 다음 포스트에서는 결측 값의 종류에 대해 알아보도록 하겠다.

728x90
반응형

+ Recent posts