'배경지식' 태그의 글 목록

배경지식

Tensorflow-2.0. 캐글(Kaggle)과 타이타닉 데이터 2021.02.09
결측값: 2.1. 결측값 대체(2) - Multiple Imputation 2021.01.21
결측값: 2.0 결측값 대체(1) - Single imputation 2021.01.21 4
결측값: 1.1 기본개념(2) - 결측값의 종류 2021.01.20
결측값: 1.0 기본개념(1) - 결측값이 미치는 영향 2021.01.20
정보 보안(1부) : 정보보안과 보안솔루션 2020.07.01

Tensorflow-2.0. 캐글(Kaggle)과 타이타닉 데이터

만년필잉크 2021. 2. 9. 15:20

2021. 2. 9. 15:20

728x90

캐글(Kaggle)이란?

빅데이터 분석에 관심이 있는 사람이라면, 한 번쯤 캐글(Kaggle)에 대해 들어봤을 것이다.

캐글은 2010년 설립된 예측모델 및 분석대회 플랫폼으로, 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁하는 곳이다. 2017년 3월 구글에 인수되었다(위키피디아)

캐글(Kaggle)은 말 그대로 빅데이터 분석가들의 사냥터라고 할 수 있는데, 빅데이터 분석가들의 사냥감인 데이터가 널려 있으며, 서로서로 그 데이터를 얼마나 잘 요리했는지를 비교할 수도 있다.

1. Competitions

캐글 입장 후, Compete를 보면, 수많은 상금이 걸린 도전 과제들이 있는 것을 볼 수 있다.
여기서 마음에 드는 과제를 선택하면 "Join Competition"이라는 버튼이 생기는 것을 볼 수 있는데, 이를 클릭해서, 해당 대회에 참여할 수 있다.

위 사진에서 각 버튼은 다음 기능을 한다.

Overview: 문제에 대한 소개와 정의
Data: 예측 모델 생성에 필요한 데이터셋과 Feature가 되는 Fields가 설명되어 있으며, 대회에 쓰일 데이터 셋을 다운로드할 수 있다.
Code: 대회 참가 시, 캐글에서 제공하는 서버에서 작업할 수 있게 해 주며, 다른 사람의 코드를 참고할 수 있음.
Discussion: 질의응답 공간
Leaderboard: 모델의 정확도를 기준으로 랭킹이 매겨지는 곳
Dadataset: 관련 데이터 셋을 볼 수 있다.

대회 진행 방식은 데이터를 다운로드하여 내 PC에서 작업하거나 캐글에서 제공하는 서버에 접속해 작업을 하는 방식이 있다.

대회 참가 후, Code를 클릭하면 New Notebook을 눌러, 커널에 접속할 수 있다.

여기서 코드를 작성할 수 있으며, 그 코드가 정상적으로 실행된다면, Commit 하여, 결과를 업로드하고 정확도를 기반으로 점수를 확인할 수 있다.
상위 랭킹에 들어간다면, 그에 대한 대회의 보상을 받을 수도 있다고 하니, 실력도 늘리고, 용돈 벌이도 할 겸 해서 한 번쯤 해보는 것을 추천한다.

2. 타이타닉 데이터

이번에 학습에 사용해볼 데이터인 타이타닉 데이터를 구해보자.
위 과정을 통해 직접 찾아갈 수도 있으나, 이 버튼을 눌러서 바로 이동할 수도 있다.

타이타닉 데이터의 변수별 정보는 다음과 같다.

이곳에서 Titanic Data를 다운로드할 수 있으며, 데이터의 칼럼 별 개형 등을 볼 수도 있다.
데이터의 각 변수에 대한 정보를 최대한 얻은 다음 분석을 시작하도록 하자.

이밖에도 캐글은 커뮤니티나 빅데이터 분석의 기반이 되는 것들을 공부할 수 있는(Courses) 공간도 따로 제공하므로, 많이 사용해보도록 하자.

다음 포스트에서는 이번에 받은 타이타닉 데이터를 이용해서, 생존자 예측 모델을 만들어보도록 하겠다.

728x90

저작자표시 비영리 동일조건

'Machine Learning > TensorFlow' 카테고리의 다른 글

Tensorflow-2.2. 타이타닉 생존자 분류 모델(1) (2)	2021.02.10
Tensorflow-2.1. 타이타닉 데이터 설명 (0)	2021.02.09
Tensorflow-1.6. 기초(7)-기초 모델 만들기(2)-Input 4개, Output 2개 (0)	2021.02.09
Tensorflow-1.5. 기초(6)-기초 모델 만들기(1)-변수 2개인 경우 (0)	2021.02.08
Tensorflow-1.4. 기초(5)-하이퍼 파라미터 튜닝 (0)	2021.02.08

결측값: 2.1. 결측값 대체(2) - Multiple Imputation

만년필잉크 2021. 1. 21. 14:59

2021. 1. 21. 14:59

728x90

단일 대체법(Single Imputation)을 학습해보면서, 대체된 값이 임의의 오차를 가지므로 실제 현상과 차이가 클 수 있다는 것을 알았다. 이번 포스트에서는 이 단일 대체법을 여러 번 실시하여 오차의 불확실성을 고려(앙상블)하는 다중 대체법(Multiple Imputation)에 대해 학습해보겠다.

다중대체법(Multiple Imputation)

1. 다중대체법의 절차

A. 데이터셋 생성: 특정 알고리즘에 따라 결측 값을 대체 값으로 바꾼 m개의 데이터 셋 생성
B. 분석과 추정: m개의 완전한 데이터셋을 각각 원하는 분석 기법에 대해 분석하고, 그 결과에서 모수 추정치와 표준오차 계산
C. 결합: 각 데이터 셋의 결과를 Rubin's rule에 의해 결합
위 과정을 간략히 이야기해보면 대체값으로 결측 값을 채워 넣은 데이터셋을 m개 만들고, 내가 분석하고 싶은 모델 A를 m개 모델에서 각각 추출한 후, 추정치의 평균을 모델 A의 분석 결과로 뱉어내는 방식이다.
이런 여러 모델을 동시에 사용해 보다 정확한 예측을 하는 기법을 앙상블(Ensemble)이라고 한다.

※ Rubin's rule:

Rubin, B. D. (1987). “The Calculation of Posterior Distributions by Data Augmentation: Comment: A Non-iterative Sampling/Importance Resampling Alternative to the Data Augmentation Algorithm for Creating a Few Imputations when Fractions of Missing Information are Modest: the SIR algorithm, ”Journal of the American Statistical Association, 82(398): 543-546.

각 데이터 셋 별로 구한 추정치($\bar{Q}$)와 표준오차($\sqrt{T}$)를 결합하는 방법으로, 추정치의 결합은 각 데이터셋으로부터 구한 추정치의 평균으로 정의된다.
추정치($\bar{Q}$)의 분산 $T$는 대체 내 분산(within-imputation variance) $W$와 대체 간 분산(between-imputation variance) $B$의 결합 값으로 정의된다.

$$\bar{Q}=\frac{1}{m}\sum\limits_{i=1}^{m}\hat{Q_i}$$

$$\bar{W}=\frac{1}{m}\sum\limits_{i=1}^{m}\hat{W_i}, B=\frac{1}{m-1}\sum\limits_{i=1}^{m}(\hat{Q_i}-\bar{Q})^{2}, T=\bar{W}+(1+\frac{1}{m})B$$

다중 대체법(MI)은 대체될 변수에 대한 사전 분포 가정의 존재 여부에 따라 MVNI, MICE 방식이 있다.

2. 다변량 정규분포 대체(Multivariate Normal Imputation, MVNI) 방식

모든 변수들이 정규분포를 따른다는 것을 가정하고 베이지안 접근(Bayesian's approach)에 따라 정규분포에서 대체 값을 획득하게 된다.
이러한 정규성 가정은 이항 변수나 범주형 변수에는 적용 가능성이 떨어질 수 있다는 지적이 있으나, Schafer(1999)는 정규성이 만족하지 않아도 MVNI 적용이 가능하다고 보았다(Schafer, J. (1999). “Multiple Imputation: A Primer”. Statistical Methods in Medical Reseach, 8(1): 3-15).
MVMI의 대표적인 방식은 MCMC 방식이 있다.

마르코프 연쇄 몬테카를로 방법(Markov Chain Monte Carlo, MCMC)

MCMC는 최초에 정규분포를 가정하고 시작하나, 반복이 되면서 바로 전 단계의 정보에 의해서만 현재 단계의 정보가 업데이트되는 마르코프 체인의 특성이 적용된다.
그 결과 최초에 설정한 분포와 상관없이 최종적으로 관측치와 대체된 결측치를 가장 잘 설명하는 분포에 수렴하게 된다.
MCMC는 I-step, P-step 두 단계로 구성된다.
I-step(Imputation step): 결측치를 대체하는 단계
P-step(Posterior step): I-step을 통해 분포의 모수를 추정하는 단계
I-step과 P-step이 번갈아 가며 진행되면서, 이 두 단계가 대략적으로 독립적인 추출이 될 때까지 충분히 반복한다.
보다 상세한 내용은 위키피디아를 참고하기 바란다.

ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84_%EB%AA%AC%ED%85%8C%EC%B9%B4%EB%A5%BC%EB%A1%9C_%EB%B0%A9%EB%B2%95

마르코프 연쇄 몬테카를로 방법 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 마르코프 연쇄 몬테카를로 방법(무작위 행보 몬테 카를로 방법 포함)은 마르코프 연쇄의 구성에 기반한 확률 분포로부터 원하는 분포의 정적 분포를 갖는 표본

ko.wikipedia.org

3. 연쇄방정식에 의한 다중대체(Multiple Imputation with Chained Equations, MICE)

모든 변수들이 정규분포에 따른다는 가정이 없는 방식으로, 분포를 가정하지 않기 때문에 MVNI 방식에 비해 유연하게 사용할 수 있다.
결측치의 조건적인 분포가 다른 모든 변수들에 의해 결정되며, 분포 가정이 없기 때문에 서열 척도, 명목형 척도 등 다양한 변수에도 적용할 수 있다.
대표적인 방법으로 FCS 방식이 있다.

완전조건부 대체법(Fully Conditional Specification, FCS)

분포에 대한 가정 없이 연속된 회귀방정식을 통해 값을 대체해 나가는 방법이다.
FCS는 Fill-in, Imputation 두 단계로 이루어진다.
Fill-in(채워 넣기): 모든 변수의 결측치를 변수의 순서대로 채우며, 앞서 채워진 변수는 다음 채워지는 변수의 독립변수로 활용되는 방식이다.
- 회귀 대체, 평균 대체 등이 활용되며, 범주형 변수나 이항 변수는 로지스틱 회귀모형을 활용한다.
Imputation(대체): 앞서 채워진 값들을 변수의 순서대로 대체하는 과정으로, 이 과정을 충분히 길게 하여 대체된 데이터셋에서 결측치가 독립적인 추출이 될 때까지 시행한다.

4. MCMC와 FCS 방법 비교

FCS는 MCMC에 비해 상대적으로 적은 수의 반복으로도 수렴하며, 5~10번 정도면 충분히 만족스러운 결과를 나타낸다고 한다(Brand, J. P. L. (1999). Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets. PhD. dessertation; Erasmus University, Rotterdam.).
Lee & Carlin(2010)은 MVNI와 FCS를 완전제거법과 비교하는 시뮬레이션 분석을 통해, 정규성이라는 가정을 동반한 MVNI 방식이 FCS보다 못하다는 증거가 없다고 주장했다.
이와 더불어 FCS와 MVNI 모두 완전제거법에 비해 불편성과 검정력 등에서 우월하며, 특히 MVNI는 이항 변수(binary variable)와 순서형 변수(ordinary variable)에서도 여전히 좋은 방법이라 주장하였다.
Lee, K, J. & Carlin, J. B.(2010). “Multiple Imputation for Missing Data: Fully Conditional Specification Versus Multivariate Normal Imputation,” American Journal of Epidemiology, 171(5): 624-632.

5. 변수 특성과 결측 값 유형에 따른 대체방법

결측 패턴	대체될 변수유형	대체방법
단조(Monotonic) 패턴	연속형 변수	Monotone regression
		Monotone predicted mean matching
		Monotone propensity score
	서열 변수	Monotone logical regression
	명목 변수	Monotone discriminant function
일반적 패턴	연속형 변수	MCMC full-data imputation
		MCMC monotone-data imputation
		FCS regression
		FCS predicted mean matching
	서열 변수	FCS logistic regression
	명목 변수	FCS discriminant function

결측 패턴과 변수의 특성에 따라 회귀분석을 이용한 추정(Regression), 성향 점수법(Propensity score), 로지스트기 회귀분석을 이용한 추정 등을 사용
분포에 대한 가정 여부에 따라 정규분포를 가정하는 경우(MCMC)와 그렇지 않은 경우(FCS)로 구분
결측의 패턴이 단조적이고 연속형 변수의 경우, 다변량 정규분포를 가정하는 모수 방법(parameter)과 성향점수법과 같은 비모수적인 방법(non-parametric)을 모두 사용할 수 있음
- 단조(Montonic) 패턴: 함수의 진행방향이 항상 일정한 함수 - 단조증가함수 또는 단조감소함수 등
단조 패턴의 서열형 변수의 경우 로지스틱 회귀분석법을 명목형 변수에는 판별 함수법 사용
일반적인 결측 패턴의 경우, 다변량 정규분포를 가정하는 MCMC 방법이나, 모든 변수의 결합 분포가 존재한다고 가정하는 FCS 방법을 활용할 수 있다.
연속형 변수에 대한 대체는 분포에 대한 가정과 상관없이 MCMC, FCS를 모두 사용할 수 있다.
일반적으로 MCMC가 다변량 정규분포 가정을 하고 있으나, 결측 된 정보가 크지 않은 경우, 다중 대체에 의한 추정이 강건한(robust) 결과를 보인다고 알려져 있다. 하지만 연속형 변수와 더불어 서열형이나 명목형 변수에 대한 대체를 하기 위해서는 MCMC보다 FCS가 권장된다.

지금까지 결측값 대체 기법 중 하나이며, 단일 대체법의 단점을 보완할 수 있는 방법인 Multiple Imputation에 대해 알아보았다. 다음 포스트에서는 R 언어를 활용하여 실제 결측값을 탐색하는 방법과 결측값을 대체하는 방법에 대하여 실습해보도록 하겠다.

728x90

저작자표시 비영리 동일조건

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측값: 3.1. R-결측값 다루기(2) (0)	2021.02.12
결측값: 3.0. R-결측값 다루기 (0)	2021.01.21
결측값: 2.0 결측값 대체(1) - Single imputation (4)	2021.01.21
결측값: 1.1 기본개념(2) - 결측값의 종류 (0)	2021.01.20
결측값: 1.0 기본개념(1) - 결측값이 미치는 영향 (0)	2021.01.20

결측값: 2.0 결측값 대체(1) - Single imputation

만년필잉크 2021. 1. 21. 11:23

2021. 1. 21. 11:23

728x90

지난 포스트에선 결측 값의 종류에 대해 살펴보았다. 이번 포스트에서는 발생한 결측 값들이 무작위 결측(MAR)이란 가정하에 결측 값을 대체하는 방법에 대해 알아보도록 하겠다.

결측 값 대체하기 - Single imputation

발생한 결측 값이 어떠한 사유에 의해 발생한 것으로 추정되는 상태인 비 무작위 결측(NMAR)이 아니라면, 다음과 같은 비교적 단순한 방법으로 결측 값을 대체할 수 있다.

1. 완전제거법(Listwise deletion)

결측치가 포함된 케이스를 분석 대상에서 완전히 제거하는 방법
SPSS, SAS, STATA와 같은 각종 통계 툴에서 기본값(Default)으로 설정돼있는 방법이다.
발생한 결측값이 완전 임의 결측(MCAR)인 경우, 해당 방법을 사용해도 전체 집단을 대표할 수 있으며, 분석의 편향(bias)이 발생하지도 않는다.
한계점
1. 그러나, 완전 임의 결측(MCAR)이 발생할 확률은 굉장히 낮으므로, 완전제거법으로 만들어진 데이터는 전체 표본을 대변하지 못하고, 편향을 일으킬 수 있다. (Stuart, E. A., Azur, M, Frangakis, C. & Leadf, P.(2009). “Multiple Imputation with Large Data Sets: A Case Study of the Children’s Mental Health Initiative, ”American Journal of Epidemiology, 169(9): 1133-1139.)
2. 각 변수의 결측치가 완전임의결측이라 일지라도, 서로서로 결측이 있는 행이 달라, 완전 제거법 사용 후, 표본 수가 급격하게 감소할 수 있다.
3. 정보의 손실과 검정력 약화 문제가 발생할 수 있다.

2. 평균대체법(Mean substitution)

어떤 변수의 결측값을, 관측된 값의 평균값으로 대체
평균 대체법은 특정 정보가 부재할 경우, 평균이 가장 좋은 대푯값이라는 논리에 기인하는 방법
한계점
1. 정보량 손실을 줄인다는 관점에서는 완전 제거법에 비해 향상된 방법이라고 할 수는 있으나, 여전히 결측치 대체에 불확실성을 고려하지 못한다는 단점이 있다.
2. 결측치 대신 평균값을 넣기 때문에, 변수의 분산이 감소되고, 공분산과 상관계수의 혼란도 발생할 가능성이 있다. 이로 인해 평균 대체를 가장 좋지 않은 대체방법이라고도 한다.
3. 예를 들어, 실제 수학 성적의 평균 값은 65점이나, 점수가 매우 낮은 사람들이 자신의 성적을 기재하지 않아 결측 값을 제외한 평균값인 80점을 결측 값 대신 넣는다면, 관측값의 평균에 결측 값 데이터들이 모두 모이게 되고, 그로 인해 분산이 크게 왜곡될 수 있다.

3. 회귀대체법(Regression-based single inputation)

Osbome, J. W. (2012). Best Practices in Dataa Cleaning: A Complete Guide to Everything You need to Do Before and After Collecting Your Data. CH 6. Thousand Oaks, CA: Sage
응답자의 응답값과 결측치 간에 강한 상관관계가 존재한다는 가정 하에, 관측치 간의 회귀 방정식을 통해 결측치를 예상한다.
결측치를 포함하는 변수를 종속변수로, 나머지 변수를 독립변수로 하는 회귀식을 구성하고, 이렇게 추정된 회귀식의 예측값으로 결측 값을 대체한다.
변수의 특성(연속형 변수, 범주형 변수, 교호작용항 및 이차항 등)에 따라 회귀식을 구성해 예측력을 향상한다.
한계점
- 회귀식을 이용한 단일 대체는 결측 값을 실제로 관찰된 값으로 가정하고 분석하므로, 결측값 대체의 불확실성을 고려하지 않는다.
- 표준오차가 과소추정되어 p-value가 실제보다 작아지고, 신뢰구간이 좁아질 수 있음

4. 핫덱대체법(Hot deck)

비슷한 성향을 가진 케이스의 값으로 결측 값을 대체한다.
자료 분포를 가정하지 않으며, 다른 변수(나이, 성별, 소득 등)가 유사한 응답자의 값을 임의로 추출해 결측치를 대체한다.
한계점
1. 어떤 변수를 기준으로 대체군을 형성하는지와 어떤 순서로 기준을 적용하는지에 따라 결측값 대체 값이 달라진다.
2. 대체에 대한 명확한 분포 가정이나 모형을 정의하지 않으므로, 수리적으로 편의(bias)를 계산할 수 없어 대체 결과를 평가하기 어렵다.

5. 가중치 보정법(Weighting)

결측치를 대체하지 않고 관측된 값에 가중치를 부여하여 보정함.
Data를 특정 변수(성별, 연령대 등)에 따라 집단을 나누고, 각 집단의 조사설계 시 예상 관측 치수에 대비한 실제 응답한 관측치의 수를 비율로 응답 확률로 정의함
응답 확률의 역수를 가중값으로 관측된 값에 곱해 분석 결과를 보정한다.
한계점
1. 가중값을 변수의 관측된 값에 곱하므로 해당 변수의 분산이 증가하게 된다.
2. 무응답과 관련 있는 변수는 편의가 줄어드는 대신 분산이 늘어나는 상충관계지만, 무응답과 관련 없는 변수는 분산만 증가한다.

6. 기댓값 최대화 알고리즘(Expectaion-maximization algorithm, EM 알고리즘)

Little, R. J. & Rubin, D. B. (2002). Statistical Analysis with Missing Data. Hoboken, NJ: J Wiley & Sons.
앞서 설명한 5가지 방법을 하나로 묶어 전통적 대체방법(Conventional imputation method)라고 하는데, 이러한 단일 대체 방법들은 각자 편향(bias), 분산 감소 등의 문제를 일으킬 수 있어, 실제 분석결과를 왜곡시킬 위험이 있다.
이러한 문제를 감안하고도 완전한 데이터셋을 만들고자 한다면 EM 알고리즘을 사용하는 것이 유리하다.
E는 기댓값(Expectation), M은 최대화(Maximization)를 의미한다.
EM 알고리즘은 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대가능도(Maximum likelihood)나 최대 사후 확률(Maximum a posteriori)을 갖는 모수 추정 값을 E-step과 M-step 반복 계산을 통해 찾아내는 알고리즘이다.
E-step: 모수에 관한 추정 값으로 우도(Likelihood)의 기댓값을 계산하는 기댓값 단계
M-step: E-step의 기댓값을 최대화하는 모수 추정 값들을 구하는 최대화 단계
E-step과 M-step 과정을 반복하여 계산 결과가 충분히 수렴하게 되면, 최종 최대가능도나 최대 사후 확률을 통해 결측치의 대체 값을 결정한다.
한계점
1. EM 알고리즘 방식을 통한 단일 대체는 대체된 값의 분산이 너무 작다는 문제가 존재함

지금까지 결측 값을 대체하는 방법 중 단일 대체 방법에 대해 학습해보았다. 단일 대체법은 간단하게 말하자면, 결측 값이 지나치게 많지 않은 상태(5% 이하이며, 그 이상은 보다 정교한 방식을 써야한다. 그러나 결측값이 30% 이상 넘어간다면, 정교한 방식을 사용하여도 제대로 추론하지 못한다.)에서 결측 값들을 채워서 완벽한 데이터 셋을 만드는 방법이다.

결측값이 10% 미만이면 무슨 방법을 쓰던 큰 상관이 없으며, 그 이상부터는 회귀 대체를 포함한 보다 정교한 모델을 써야한다고 하지만, 개인적으로는 5% 미만을 생각하고 보다 보수적으로 접근하는 것이 안전하지 않나 싶다.
결측값이 30% 이상 넘어간다면, 가능한 결측값 대체 방식을 사용하지 않기를 바란다(이전에 들었던 내용인데, 정확히 어디서 나온 내용인지 기억 나지 않아 확답은 힘들다만 결측값이 차지하는 비중이 지나치게 크다면, 관측값만으로 결측값을 추정하는데 한계가 생길 수 있으므로, 결측값 대체 방법에 너무 의존하지 않는 것이 좋다.)

이 중 가장 쉽게 쓸 수 있으면서 효과도 썩 나쁘지 않은 방법은 완전 제거법인데, 결측 값을 감안하여 연구 대상인 표본 집단 영역을 보다 좁혀나가며 사용하기에 논리적으로도 큰 문제가 없는 방법이다.

그러나 결측 값 대체를 해야한다면 일반적으로 회귀대체, EM알고리즘을 사용하며, 이 밖에도 k-nn 군집분석, 의사결정나무 등을 통해서도 결측값 대체를 할 수 있다.

그러나 이러한 단일 대체 방법은 설정 방법이나 확률에 의존하는 경우 전혀 다른 대체 값이 출력될 위험이 존재하며, 범주형 데이터는 대체 값을 생성하였을 때, 정확도가 매우 낮다는 단점이 있다.

다음 포스트에서는 이런 단일 대체 방법의 단점을 보완할 수 있는 방법인 다중 대체법(Multiple imputation)에 대해 알아보자.

728x90

저작자표시 비영리 동일조건

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측값: 3.1. R-결측값 다루기(2) (0)	2021.02.12
결측값: 3.0. R-결측값 다루기 (0)	2021.01.21
결측값: 2.1. 결측값 대체(2) - Multiple Imputation (0)	2021.01.21
결측값: 1.1 기본개념(2) - 결측값의 종류 (0)	2021.01.20
결측값: 1.0 기본개념(1) - 결측값이 미치는 영향 (0)	2021.01.20

결측값: 1.1 기본개념(2) - 결측값의 종류

만년필잉크 2021. 1. 20. 22:46

2021. 1. 20. 22:46

728x90

지난 포스트에선 결측값이 미치는 영향에 대해 살펴보았다. 이번 포스트에서는 결측값의 종류를 알아보도록 하자.

결측값의 종류

결측값의 종류는 크게 결측값의 발생에 어떠한 인과 관계가 있느냐(결측값과 측정값이 서로 독립)의 정도에 따라 나눠진다. 후술 할 완전 무작위 결측(MCAR)은 이상적인 수준으로 결측값이 완전 무작위로 발생한 상태이고, 무작위 결측(MAR)은 이 상태일 것을 가정할 수 있는 상태이다. 마지막인 비 무작위 결측(NMAR)은 결측값 발생에 인과 구조가 있을 것임이 확실한 상태라고 보면 된다.

1. 완전 무작위 결측(MCAR: Missing completely at random)

결측값이 변수의 성격과 전혀 무관하게 발생한 경우이다.
자료의 관측된 값과 결측된 값 모두 결측의 발생과 독립적이다.
결측 데이터를 가진 모든 변수가 완전 무작위 결측에 해당하는 경우, 단순 무작위 표본추출을 통해 완벽한 사례를 만들 수 있다.
말 그대로 결측값이 발생한 것에 그 어떠한 의도도 없는 상태로 모든 정보가 데이터에 담겨 있어, 결측값의 존재가 전혀 문제 되지 않는다.
결측값 발생에 대한 이상적인 경우지만, 현실에서 그럴 가능성이 높지 않다.

2. 무작위 결측(MAR: Missing at random)

결측의 발생은 오로지 관측된 값에 의해서만 설명되며, 결측된 값과는 독립일 것이라 가정한 상태이다.
관측된 값으로부터 결측치를 추정하는 것이 가능하게 되므로, 다양한 결측값 대체 방법을 적용할 수 있다.
결측 조건이 다른 변수에 따라 조건부로 발생하는 경우, 결측값이 관측된 데이터가 아니라 관측되지 않은 데이터에 따라 결정된다.
결측값을 추정할 수 있는 상태로, 일반적으로 설문지가 문제없이 작성되었거나, 설문에 대한 응답으로 어떠한 피해도 없을 것임이 설문 대상에게 이해가 된 상태로, 후술 할 결측값 추정 방법은 이 무작위 결측 상태임을 가정하고 시행한다.
즉, 결측된 값의 발생이 어떤 인과 구조에 의해 발생한 것이 아닌 측정된 값들로 추정할 수 있는 상태라는 것을 의미한다.

3. 비 무작위 결측(NMAR: Not missing at random)

결측값이 전혀 임의적으로 발생한 것이 아니며, 관측된 값과 결측된 값 모두에 영향을 받는 상태이므로, 결코 무시할 수 없는 상태이다.
이 경우엔 결측값의 발생에 어떠한 이유가 있는 상태이므로, 결측값에 대해 세세하게 추가 조사를 해야 하는 상태이다.

쉬운 구분 방법

위 내용들만 읽어보면, 전혀 와닿지 않을 수 있는데, 아주 단순하게 이해하려면 다음과 같이 생각해보면 된다.

3. 비 무작위 결측(NMAR): 우울증이 너무 심한 응답자들이 우울증 문항에 허위 기술을 하거나, 정치적, 종교적인 이유로 실제와 전혀 다른 응답을 하는 경우
위 예시처럼 설문지 응답에서 중요한 특정 집단이 의도적으로 자신을 감춰버린 상태!
3번 상태가 아니라면, 이 결측값 발생이 어느 정도 독립적으로 발생하지 않았을까?라고 생각할 수 있는 상태가 되고, 이건 완벽하게 우연히 발생한 결측값이야! 상태가 1. 완전 무작위 결측(MCAR)이 되는 것이다.
즉, 결측값의 발생이 뚜렷하게 어떤 인과 관계가 숨어 있는 상태다 아니다 이것으로 구분 지으면 된다.

지금까지 결측값의 종류에 대해 알아봤다. 설명을 하다보니 꽤 지저분하다는 느낌이 많이 드는데, 아주 단순하게 1. 이상적인 상태, 2. 정상, 3. 비정상 이렇게 생각해도 된다.

다음 포스트에서는 이 결측값들을 어떻게 대체할 것인지에 대해 알아보도록 하겠다.

728x90

저작자표시 비영리 동일조건

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측값: 3.1. R-결측값 다루기(2) (0)	2021.02.12
결측값: 3.0. R-결측값 다루기 (0)	2021.01.21
결측값: 2.1. 결측값 대체(2) - Multiple Imputation (0)	2021.01.21
결측값: 2.0 결측값 대체(1) - Single imputation (4)	2021.01.21
결측값: 1.0 기본개념(1) - 결측값이 미치는 영향 (0)	2021.01.20

결측값: 1.0 기본개념(1) - 결측값이 미치는 영향

만년필잉크 2021. 1. 20. 22:04

2021. 1. 20. 22:04

728x90

결측 값(Missing value)

: 결측 값은 R에서는 NA, Python에서는 None, NaN으로 출력되며, 값이 기록되지 않았거나 관측되지 않은 경우, 데이터에 저장되는 값을 말한다.

결측 값이 분석 결과에 미치는 영향

1. 표본의 규모가 감소되어 검정력이 감소된다.

SPSS, SAS, STATA 등과 같은 통계 분석 도구들은 결측 값을 자동으로 제외하는 방식을 기본값(Default)으로 적용하고 있으며, 하나의 변수를 기준으로는 결측 값의 비중이 크지 않더라도, 전체 데이터에서 하나라도 결측 값을 갖는 케이스를 모두 제외하면, 소실되는 표본 비율은 커지게 된다.

표본이 10,000명인 Data가 있다고 할 때, 변수 A의 결측 값이 200명, 변수 B의 결측 값이 400명, 변수 C의 결측 값이 1,000명, 변수 D의 결측 값이 600명이라고 가정할 때, 최대 결측 값은 2,200명 최소 결측 값은 1,000명이다.
Graham. J.W.(2012). Missing Data: Analysis and Edsign. New York : Springer. 참조

2. 표본의 대표성이 낮아져 분석 결과에 편향(Bias)을 가져온다.

무응답의 원인이 설문 문항에 대한 적대적 태도, 무관심, 이해 부족 등에서 비롯된 경우, 표본의 대표성에 치명적인 문제를 일으킬 수 있다.

만약, 고등학교 당시 수학 성적을 물어보는 설문 문항이 존재한다면, 설문조사 대상자가 자신에게 악영향이 있을 것이라 생각하여 자신의 성적을 적지 않거나, 잘못된 성적을 적을 수 있다.
위 경우, 평균이 85점으로 나왔으나, 실제로는 수학 성적이 낮은 사람들이 자신의 성적을 적지 않아 85점으로 나온 것이라, 실제 수학 점수 평균은 70점일 수 있다.
Stuart, E. A., Azur, M, Frangakis, C. & Leadf, P.(2009). “Multiple Imputation with Large Data Sets: A Case Study of the Children’s Mental Health Initiative, ”American Journal of Epidemiology, 169(9): 1133-1139. 참조

3. 결측으로 인한 실제 문제의 발생을 식별하기 어렵다.

결측 값은 항상 결과에 영향을 주는 것이 아니라, 영향을 줄 수도 있지만, 때로는 영향을 주지 않을 수도 있다.

결측률이 5% 이하인 경우: 특별한 결측치 보정 없이 분석이 가능하다고 한다.
- Graham, J. W. (2009). “Missing Data Analysis: Making it Work in the Real World,” Annual Review of Psychology, 60: 549-576
무응답이 1% 이하인 경우 무시할 수 있으며, 1~5%인 경우 보정 처리가 가능하나, 15% 이상인 경우 정교한 보정이 필요하다고 한다.
- Acuna & Rodriguez, C. (2004). “The Treatment of Missing Values and Its Effect in the Classifier Accuracy,” Classification, Clustering and Data Mining Applications. 639-647.
설문의 종류, 길이, 구조 등에 의해 결측 값이 발생할 수 있다.
1. 긴 설문조사는 응답자의 중도포기로 인해 상대적으로 뒤에 있는 문항에서 결측이 발생할 수 있다.
2. 설문지 하단의 문항을 발견하지 못해, 무응답 처리될 수 있다.
3. 흡연자를 대상으로 하는 설문 문항에서 비흡연자는 결측 값 처리가 되므로, 실제 결측 값이 존재하지 않는 문항이나, 표본 설정을 잘못하여 결측 값이 다량 발생한 것으로 판단될 수 있다.
4. 위와 같은 문제는 결과에 유의미한 영향을 주지 않을 가능성이 높다.
결측 값의 존재로 인해 발생하는 문제는 수집된 데이터를 통한, 사후 분석에 의해서만 알 수 있으므로, 숨겨진 문제(Hidden problem)이라고도 한다.

이번 포스트에서는 결측 값이 분석 결과에 미치는 영향에 대해 알아보았다. 다음 포스트에서는 결측 값의 종류에 대해 알아보도록 하겠다.

728x90

저작자표시 비영리 동일조건

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측값: 3.1. R-결측값 다루기(2) (0)	2021.02.12
결측값: 3.0. R-결측값 다루기 (0)	2021.01.21
결측값: 2.1. 결측값 대체(2) - Multiple Imputation (0)	2021.01.21
결측값: 2.0 결측값 대체(1) - Single imputation (4)	2021.01.21
결측값: 1.1 기본개념(2) - 결측값의 종류 (0)	2021.01.20

정보 보안(1부) : 정보보안과 보안솔루션

만년필잉크 2020. 7. 1. 00:03

2020. 7. 1. 00:03

728x90

요 근래 정보 보안 관련하여, 새로운 프로젝트에 참가하게 되었다. 기계 학습을 활용해서 해킹 시도를 막는 알고리즘을 손보는 것인데, 데이터 분석은 꽤 다뤄봤기에 부담스러울 것 없지만, 보안에 대한 지식은 전무한 상태라 제대로 된 접근이 힘들 것이다. 그런고로 이번 포스트에선 정보 보안이 어떠한 형태로 돌아가는지 기초적인 수준의 개념을 알아보고자 한다.

※ 본 포스트의 목적은 정보 관제에 대한 기초 상식을 파악이 목적으로, 심도 깊은 수준까지의 탐색은 하지 않도록 하겠다.

이번 포스트에서는 와우북스 보안 시리즈 중 하나인 "빅데이터 분석으로 살펴본 IDS와 보안 관제의 완성 - 패턴 매치 기법을 이용한 정보보안 감시체계의 완성 - 강명훈 저"라는 책을 바탕으로 작성하였다.

정보 보안(Information Security 또는 Inforsec)

먼저 정보 보안에 대해서 위키피디아가 어떻게 설명하고 있는지를 봐보자.

https://ko.wikipedia.org/wiki/%EC%A0%95%EB%B3%B4_%EB%B3%B4%EC%95%88

정보 보안 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 정보 보안(情報保安, 영어: information security 또는 inforsec, 정보 보호)는 정보를 여러가지 위협으로부터 보호하는 것을 뜻한다. 정보의 수집, 가공, 저장, 검색, 송�

ko.wikipedia.org

위키피디아의 내용을 읽어보면, 정보 보안이란, "정보의 유통 과정에서 훼손, 변조, 유출되는 것을 막는 것을 의미한다."라고 볼 수 있다.
이를 보다 직설적으로 표현해보면, 소중한 "정보"를 누군가가 바꿔버리거나 훔쳐가려는 시도를 막는 행위라고 할 수 있겠다.
정보 보안에는 3가지 주요 목표가 있다.
1. 기밀성(Confidentiality)
  : 허락되지 않은 사용자가 정보의 내용을 알 수 없게 해야 한다.
2. 무결성(Integrity)
  : 허락되지 않은 사용자는 정보를 마음대로 수정할 수 없다.
3. 가용성(Availability)
  : 허락된 사용자가 정보에 접근할 때, 방해받아선 안된다.
  DDoS 공격(서비스 거부 공격: 특정 사이트에 엄청난 트래픽을 발생시켜서 정상적인 사용자가 사용을 못하도록 만드는 행위)이 좋은 예시임.

자, 간단하게 정보 보안이 뭔지는 알았으니, 이번에는 이 정보보안을 위해서 이루어지는 보안관제(Manged Security Service)에 대해 알아보자.

보안관제(Managed Security Service)란?

: 국가 전산망 보안관제 지침에선 보안관제를 다음과 같이 정의하고 있다.
"정보통신망을 대상으로 수행되는 사이버 공격정보를 탐지, 분석, 대응하는 일련의 활동"

보안관제란 말 그대로, 정보 보안을 위해, 공격이 들어오는 것을 탐지하고, 공격에 대해 분석하고, 이에 대응하는 모든 활동을 가리킨다.
즉, 해킹을 막기 위한 일련의 활동이다.

이번에는 이 보안관제에 사용되고 있는 기법들에 대해서 알아보자.

보안솔루션

방화벽(Fire Wall)

네트워크 구성 시 당연히 설치되어야 하는, 필수이자 기본 솔루션이다.
방화벽의 룰은 아주 단순하다. 사전에 허용하기로 정의한 IP와 Port가 아니면 차단한다.
방화벽은 패킷 또는 세션 단위로 모든 트래픽의 허용 또는 차단 로그를 남긴다.
사고가 난 경우, 이를 분석할 때, 큰 도움이 되지 않는다.
1. 방화벽은 최소 예방 보안으로, 역할이 끝난다.
2. 방화벽에 대한 로그 데이터는 패킷 또는 세션 단위로 모든 트래픽에 대하여 허용, 차단 로그가 남으므로, 그 양이 어마어마하다.
3. 방화벽을 통과해서 보안 사고가 발생한 경우, 얻을 수 있는 정보는 접근 시간대 정도이다.
4. 그러므로, 공격 패턴이나 트래픽 발생 양상과 같은, 방화벽보다 공격임이 뚜렷한 로그에 대해서만 사고 분석을 실시하는 것이 옳다.

IDS/IPS

IDS/IPS는 TCP/IP 최상위 계층인 응용계층까지 검사 가능한 최초의 보안솔루션으로, 현존하는 보안솔루션 중 네트워크를 통해 침입하는 보안 위협을 그나마 가장 효과적으로 감시할 수 있는 룰 기반 보안솔루션이다.
- 참고 서적 저자의 견해
  : 네트워크를 통해 전달되는 데이터는 최종적으로 인간이 식별 가능한 문자나 숫자 등의 '기호'로 표현되는 정보를 송수신하면서 상호 간 서로 의도했던 의미를 수립한다.
  
  데이터는 인간의 의사소통과 마찬가지로 표현에 사용된 기호의 성격에 따라 최종 전달되는 정보의 의미가 달라지며, 최종 전달되는 정보의 보안 위협 여부 판단을 위해, 문자열 패턴(Signature)을 이용하여, 패킷 데이터 영역에 사용된 기호를 검사하는 방식은 매우 효과적이고, 그 이상 향상된 방식은 개발되지 않았다.
  (물론 이 방식은 커다란 허점을 가지고 있음)

IDS와 IPS의 핵심 기능은 사전에 정의된 룰과 트래픽의 비교를 통해 보안 위협을 찾아내는 것이다.
즉, 둘 다 탐지가 핵심 기능이다(그러므로, 둘 중 무엇이 더 우월하다고 판단해서는 안된다).
IDS와 IPS는 같은 룰 운영치계를 가지고 있다.
IP 주소, Port 번호뿐만 아니라, TCP/IP 응용계층의 데이터까지 검사 가능(패턴 매치 기법 or DPI)
- 간단하게 말하자면, 방화벽은 편지지의 봉투 주소만 확인하는 것이고, IDS/IPS는 편지의 내용까지 검사한다
- IDS/IPS는 문자열 패턴(Signature)을 검사할 수 있는 '룰 옵션' 구조를 이용해 패킷의 데이터(Payload) 영역까지 검사한다.
네트워크 보안을 전체적으로 아우르는 주력 솔루션이다.
IDS/IPS는 '패턴 매치 기법'을 이용하는 '룰 기반 보안솔루션'이므로, 보안관제 업무의 핵심이며, 탐지와 방어라는 측면에서 서로 상호 보완하는 업무 프로세스를 가져야 한다.
- IPS가 방어를 위한 탐지를 선행하며, 뒤에 IDS가 붙는다.
- IPS만 단독으로 사용하는 경우, 부정확한 룰의 방어 기능에 의한 서비스 실패 등 많은 제약이 발생하며, 룰의 정확성을 향상하기 위해선 많은 데이터를 이용한 정확한 분석이 필요하나, 대량의 데이터를 정확히 분석 가능한 IPS는 사실상 없다.

IDS

IDS는 원본 트래픽을 손실이나 변조 없이 복사해주는 방비인 TAP이 기계적으로 복사해주는 트래픽을 검사하는 구조다.
즉, 본래의 트래픽 유통에 전혀 관여하지 않는다.
Out of Path(또는 Mirror) 방식이라고도 한다.
공격자에 대한 소극적인 방어만 가능(공격자 호스트로 리셋 패킷을 보냄, 방화벽과 연동해서 공격자 차단)

IPS

기존 트래픽 유통에 직접 관여한다.
모든 트래픽은 IPS를 거쳐야만 유통 가능하다.
InLine 방식이라고 한다.
장애에 대비한 트래픽 우회(Bypass)가 가능한 TAP를 내장시키는 게 일반적이다.
공격자에 대한 적극적인 방어 가능(공격자의 패킷을 Drop 함)
트래픽 유통에 직접 관여하므로, 빠른 처리 속도가 필요하다(IPS의 트래픽 처리 성능에 문제가 있어서 트래픽 유통에 문제가 생긴다면, 당연히 사용자들이 싫어한다.).
적극적인 방어가 가능한 IDS를 IPS라고 할 수 있다.

IDS/IPS 로그 구조

탐지 시간부터 피해자 포트까지를 기본정보
공격 패킷 데이터를 상세정보(Rawdata)라고 한다.
상세정보는 바로 보여주진 않고, 별도의 조작을 통해서만 상세정보를 확인할 수 있다.

안티(Anti) DDos

DDoS(분산 서비스 거부 공격)
: 시스템 및 네트워크 자원(CPU, 메모리, 디스크, 네트워크 대역폭, 세션 등)을 비정상적으로 소진시켜, 정상적인 자원 사용을 방해하는 DoS의 진화된 공격형태이며, 공격/피해자 분포가 일대일(1:1)인 DoS에 비해, 다대일(N:1)이라는 특징을 가지고 있다.
- 아주 간단하게 말하면, 공격자가 상대방의 컴퓨터 자원을 크게 소모시키는 행위를 하여, 정상적인 행동을 못하게 만드는 것이다.
평상시, 세션 발생 추이를 기준으로 한 비교 분석을 하여 DDoS 대비
세분화될수록 분류와 분석은 복잡해지고 대응하기 어려워지므로, TCP 레벨의 DDoS 공격으로 통합해 접근
DDoS 대응을 위한 업무 프로세스
1. DDoS 보호 대상 시스템 및 네트워크 선정
2. 시스템 및 네트워크 자원(CPU, 메모리, 세션, BPS, PPS 등)의 사용 임계치 산정을 통한 DDoS 대응 장비 설정 최적화
3. DDoS 공격 전담 관제를 통한 자원 사용 이상 징후 파악

웹 방화벽

웹(웹서버, 웹 사용자 모두)은 공격자들의 최대 공격 목표이나, 방화벽, IDS/IPS, 안티 DDoS 솔루션들은 웹을 향한, 또는 웹을 통한 공격에 효과적으로 대응하지 못한다.
- 방화벽, IDS/IPS, 안티 DDpS 모두 웹을 대상으로 하였을 때, 눈에 띌 정도로 큰 한계점이 존재함
웹 방화벽의 접근제어 방식은 크게 두 갈레로 Positive 방식, Negative 방식으로 나눠진다.

분류	Positive	Negative
개념	사전에 안전하다고 정의된 패턴만 허용	사전에 위험하다고 정의된 패턴만 거부(탐지/차단)
장점	알려진 정상 패턴만을 허용함으로써 알려지지 않은 공격까지 자동 차단	공격 패턴이 정확하면 서비스 구조 변경 등과 관계없이 적용 가능
단점	서비스 구조 등의 변경 발생 시 즉각적인 정책 반영 필요	알려지지 않은 공격 패턴에 관한 지속적인 연구 필요
적용	방화벽, 웹 방화벽 등 > 사전 정의된 패턴과 일치하지 않는 모든 트래픽 차단	IDS, IPS 등 > 사전 정의된 패턴과 일치하지 않는 모든 트래픽 허용

웹 방화벽의 효과를 극대화시키기 위해선, 정상적인 웹사이트 이용 패턴을 사전에 정의해야 하며, 이 작업은 웹서버를 직접 구축하고 웹사이트를 직접 설계한 개발자 수준의 운영자가 있어야만 가능하다 할 정도로 고도의 숙련된 기술이 필요하다.
이런 운영상 어려움으로 인해, 이론적으론 효과적이나 현실적으로는 그리 큰 효과를 보지 못한다.
현재는 Positive, Negative 접근제어 방식을 혼용한 형태가 대세로, 기본적인 Positive 정책을 적용하고, 그 정책을 통과한 트래픽에 대해 IDS나 IPS처럼 공격 패턴을 탐지 또는 차단하는 Negative 정책을 적용하는 것이다.
최근엔 평판(Reputation, 입소문 마케팅 기법을 적용해 다른 웹 방화벽의 공격 평가를 자신의 평가에 반영) 기법을 도입하려는 움직임도 있으나, 걸음마 수준이며, 이 또한 정확하게 평가된(정확하게 탐지 또는 차단한) 정보들이 모여야 한다.
Positive 또는 Negative를 막론하고 정확한 룰 운영이 먼저이다.

ESM(Enterprise Security Management)

ESM은 다른 보안솔루션에서 수집한 정보에 대한 관리와 분석의 '통합'을 기치로 하여 탄생하였다.
ESM의 핵심 목표는 다음과 같다.
1. 흩어져 있는 보안솔루션 로그, 일반 시스템 로그를 수집하고, 체계적으로 이를 분류하여 통합 관리 및 분석을 시행함
2. 체계적인 통합 분석을 통해 솔루션별 보안정책의 일관성 보장
ESM을 통해 통합관리를 하게 되면, 통합된 로그 간 연관성을 추적해서 공격 여부 판별의 신속성과 정확성을 높여주는 '연관분석'을 수행할 수 있다.
1. 공격 시도가 발생 했을 때, 문제가 없는 것은 '허용 로그', 공격 실패는 '차단 로그', 공격 성공 가능성이 있는 '탐지 로그'로 로그는 나뉘는 데, 이 중 가장 신속하게 해결해야하는 문제는 '탐지 로그'이다.
2. ESM의 연관분석 기능을 활용하면, 로그 성격과 임계치 설정을 통해 보안관제 업무를 공격 성공 가능성이 높은 탐지 로그 분석에 집중시킬 수 있다.

기타 보안 솔루션

앞서 소개한 보안솔루션들은 네트워크 길목을 지키는 상시적 감시가 필요한 관문으로써 역할을 한다면, 해당 항목에서 소개할 솔루션들은 실시간 모니터링이 어렵거나 불필요, 또는 감시보다 예방 보안의 성격이 강하다.

1. 안티 스팸

최소 예방을 해주는 안티 스팸은, 악의적인 이메일 유입을 최소화해주는 기능이다.
예방 솔루션으로써 유용하지만, 최소 예방 보안이므로, 보안관제 업무에서 적극적으로 활용되는 수준은 아니다.

2. 유해 사이트 차단

유해 사이트를 차단해주는 최소 예방 솔루션으로, 웹 트래픽에서 URL 또는 URI를 검사 후, 등록된 유해 사이트 리스트와 패턴이 일치하는 트래픽을 차단하는 것이다.
IDS/IPS 등의 분석 결과를 반영하여, 업무 공조와 함께 유해 사이트 데이터베이스를 업데이트하는 경우도 있다.
비교적 단순하여, 방화벽, 웹 방화벽 등에서 기능을 제공하는 경우도 많다.
안티 스팸처럼 최소 예방 보안이므로, 보안관제 업무에 적극 활용되지 않는다.

3. 서버보안

서버보안은, 보안성 강화를 최우선 목표로 설계된 보안 운영체제(Secure OS)로, 군사 분야에 사용하기 위한 목적으로 개발된 아주 강력한 성능을 가진 보안 설루션이다.
서버보안 솔루션은 강력한 접근통제를 통해 공격 행위 자체를 무력화시키며, 공격 시대 행위나 그 행위의 결과를 감시/차단하는데 주력하는 대부분의 보안솔루션과 결을 달리하는 솔루션이다.
서버보안 솔루션은 시스템 최고 관리자인 root 사용자는 물론, 모든 프로세스를 필요한 만큼의 범위에서만 동작하도록 제한할 수 있으며, 이를 통해 보안에 어긋나는 부적절한 사용 시도를 사전에 차단할 수 있다.
효율성이 낮고, 어렵다는 단점 때문에 정보보안 분야에서 활용 비중이 그리 크지 않다.

4. 안티바이러스

안티바이러스는 네트워크에 설치되는 관문 보안 형태도 있긴 하지만, 대부분 엔드포인트(Endpoint), 즉 PC 보안 성격이 강하므로, 보안관제 업무에서 차지하는 비중이 매우 미미하다.
최근에는 악성코드, 좀비 PC 방지 등의 목적으로 특화되면서 네트워크 보안솔루션으로 성장이 진행 중이다.

5. 정보유출 방지

크게 DRM, DLP로 두 가지 솔루션으로 분류된다.
1. DRM(Digital Rights Management)
  : 허가된 사용자만이 정보에 접근할 수 있도록, 정보 자체에 적용되는 일종의 암호화 기술
2. DLP(Data Loss Prevention)
  : 네트워크 기반의 응용 프로그램(웹, 메일, 데이터베이스 등) 송수신 정보 통제(감시 및 차단), USB/CD-Writer 등의 미디어, 무선/블루투스 등 통신매체 통제
웹, 메일, 메신저, P2P 등은 데이터의 양이 어마어마하므로 실시간 모니터링이 사실상 불가능에 가깝다.
주로 사고 발생에 대비한 증거 확보 차원의 감사 목적으로 활용된다.

6. TMS(Threat Management System)

위협 관리 시스템(TMS)은 IDS/IPS 등에서 수집된 탐지/차단 로그의 발생량과 룰(로그) 별로 산정된 위험도의 조합에 의해 위협 수준(정상/관심/주의/경계/심각)을 결정해주는 솔루션이다.
룰 별 위험도 산정 기준은 다음과 같다.

위험도	산정 기준
상	보안 취약점 + 공격 코드 + 피해 사례가 발견된 경우
중	보안 취약점 + 공격 코드가 발견된 경우
하	보안 취약점이 발견된 경우

TMS는 IDS/IPS의 탐지/차단 로그를 기준으로 현재 발생하고 있는 위협 수준을 측정해주는 시스템이다.
만약 IDS/IPS의 운영이 정상화되지 않는 경우 TMS는 무용지물로 전락할 가능성이 있다(ESM도 그렇다).

7. RMS(Risk Management System)

위험관리 시스템(RMS)은 보호대상 정보자산의 구성 현황을 파악하고 자산별 운영체제, 애플리케이션, 가동 서비스 및 이와 관련된 취약점 현황을 파악 및 분석한 후, 이를 데이터베이스 화하여 위험 발생 요인의 체계적 관리를 목적으로 하는 시스템이다.
RMS는 취약점의 이력 추적 및 관리 용도에 적합하며, 제거가 힘든 취약점에 대한 보안관제 측면의 접근이 이루어질 수 있도록 하는 업무적 협조가 필요하다.

요약

방화벽: 보안솔루션이라기보다 기본적인 보안 인프라에 가깝다.
IDS/IPS: 전체 네트워크 범위를 감당한다.
웹 방화벽: 웹 보안에 특화돼 있다.
안티 DDoS: DDoS 보안에 특화돼 있다.
ESM: 위 보안솔루션들의 로그를 통합 관리하는 핵심 보안관제 솔루션이다.
이들 솔루션은 모두 정도의 차이는 있으나 '패턴 매치' 기반으로 동작하는 기능이 존재한다.
보안솔루션 분야에서 '패턴 매치 기법'은 매우 중요한 비중을 차지하고 있다.

지금까지 정보보안에 대한 기본 개념과 보안관제, 보안솔루션에 대해 간략하게 알아보았다. 만약, 보다 자세한 내용을 알고 싶다면, 본 포스트에서 참고한 서적인 "빅데이터 분석으로 살펴본 IDS와 보안 관제의 완성 - 패턴 매치 기법을 이용한 정보보안 감시체계의 완성 - 강명훈 저"를 읽어보길 바란다.

다음 포스트에선 IDS에 대해 보다 자세히 다뤄볼 예정이다.

728x90

저작자표시

PREV 이전 1 NEXT 다음

배경지식

캐글(Kaggle)이란?

1. Competitions

2. 타이타닉 데이터

'Machine Learning > TensorFlow' 카테고리의 다른 글

다중대체법(Multiple Imputation)

1. 다중대체법의 절차

※ Rubin's rule:

2. 다변량 정규분포 대체(Multivariate Normal Imputation, MVNI) 방식

마르코프 연쇄 몬테카를로 방법(Markov Chain Monte Carlo, MCMC)

3. 연쇄방정식에 의한 다중대체(Multiple Imputation with Chained Equations, MICE)

완전조건부 대체법(Fully Conditional Specification, FCS)

4. MCMC와 FCS 방법 비교

5. 변수 특성과 결측 값 유형에 따른 대체방법

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측 값 대체하기 - Single imputation

1. 완전제거법(Listwise deletion)

2. 평균대체법(Mean substitution)

3. 회귀대체법(Regression-based single inputation)

4. 핫덱대체법(Hot deck)

5. 가중치 보정법(Weighting)

6. 기댓값 최대화 알고리즘(Expectaion-maximization algorithm, EM 알고리즘)

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측값의 종류

1. 완전 무작위 결측(MCAR: Missing completely at random)

2. 무작위 결측(MAR: Missing at random)

3. 비 무작위 결측(NMAR: Not missing at random)

쉬운 구분 방법

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

결측 값(Missing value)

결측 값이 분석 결과에 미치는 영향

1. 표본의 규모가 감소되어 검정력이 감소된다.

2. 표본의 대표성이 낮아져 분석 결과에 편향(Bias)을 가져온다.

3. 결측으로 인한 실제 문제의 발생을 식별하기 어렵다.

'분석에 필요한 배경 지식 > 결측값' 카테고리의 다른 글

정보 보안(Information Security 또는 Inforsec)

보안관제(Managed Security Service)란?

보안솔루션

방화벽(Fire Wall)

IDS/IPS

IDS

IPS

IDS/IPS 로그 구조

안티(Anti) DDos

웹 방화벽

ESM(Enterprise Security Management)

기타 보안 솔루션

1. 안티 스팸

2. 유해 사이트 차단

3. 서버보안

4. 안티바이러스

5. 정보유출 방지

6. TMS(Threat Management System)

7. RMS(Risk Management System)

요약

티스토리툴바