728x90
반응형

 처음 통계학을 접하게 되었을 때, 변수(Variable)가 무엇인지 헷갈리는 경우가 꽤 많다. 학교에서 데이터 분석 강의를 하거나, 주변인들이 데이터 분석에 대해 질문을 해올 때, "변수라는 용어를 많이 사용하는데 대체 그 변수가 구체적으로 무엇이냐?"라는 질문을 종종 해온다.

 해당 파트에서 학습할 변수는 분포와 함께 데이터 분석에 있어, 상식으로 사용되는 개념이므로, 꼭 숙지하고 넘어가도록 하자.

 

 

변수(Variable)


 "변수(Variable)"는 우리가 관심 있는 대상이 가지고 있는 속성(Attribute)이다.


 위 한 줄이 가장 쉽게 변수를 설명할 수 있는 말인데, 막연하게 느껴질 수 있으므로, 좀 더 자세히 설명해보도록 하겠다. 이전 포스트("통계학이란? - 1.모집단과 표본집단")에서 "연구자가 관심 있는 대상""모집단"이라고 했다.

 이 모집단이 가지고 있는 속성(Attribute)이 바로 변수다. "속성(Attribute)"은 연구자가 정의할 수 있는 대상이 가지고 있는 성질이며, 동시에 대상을 특정 혹은 정의할 수 있는 개념이다.

 

예시를 통한 설명

  • 당신이 "사람"이라는 대상에 대해 관심이 있다고 가정해보자. 그럼 사람은, 성별, 연령, 국적, 키, 몸무게, 거주지, 최종 학력 등의 속성을 가지고 있다고 할 수 있다.
  • 만약 당신이 특정 속성을 갖는 사람을 찾고 싶다고 해보자. 성별이 여성, 연령이 24살이며 한국 국적을 갖고 있는 사람을 찾는다고 하면, 꽤 광범위하므로 찾기 쉽지 않을 것이다.
  • 여기에 변수를 하나하나 추가해보자. 키가 153cm, 몸무게 54kg, 대전광역시 거주, 대학교 졸업, 원무과에서 근무함.
  • 이런 식으로 변수가 하나하나 추가될수록 특정 개체를 쉽게 설명할 수 있게 된다. 우리는 우리가 관심 있는 대상을 이러한 변수들을 통해, 그들의 속성을 구체화시키고, 그들 개개인을 구분할 수 있다.
  • 모집단이 연구자의 관심 집단이 바뀌면, 바뀌듯이 변수 역시 모집단에 종속되어 변한다.

 

변수와 개인정보

  • 변수를 통해 개인을 특정할 수 있다고 하였는데, 변수에 따라 그 정도가 바뀌게 된다.
  • 단 하나로 대상을 특정할 수 있는 변수가 있으며, 3개 이상의 변수가 동시에 사용되어 대상을 특정할 수 있는 변수도 있다.
  • 예를 들어, 주민등록번호, 휴대폰 번호와 같은 변수는 아주 강력하게 특정 객체를 지목하게 한다.
  • 이름, 거주지, 연령과 같이 함께 사용되어, 강력하게 특정 객체를 지목하는 변수도 있다.
  • 이는 RDB의 Primary key, Super key와 유사한 개념이다.
  • 때문에 주민등록번호, 휴대폰 번호, 이름 같이 강력한 변수는 아예 데이터에 넣지 않거나, 만약 데이터에 들어가 있는 경우, 그 관리 수준이 상당히 엄중하다. 

 

 

 

 

 

 

1. 변수의 종류

  • 변수는 크게 "질적 변수(Qualitative variable)", "양적 변수(Quantitative variable)" 둘로 나뉜다.
  • 변수의 종류에 따라 접근하는 통계 분석 방법이 바뀌므로, 정확히 변수의 종류를 인식하는 것은 필수다.

 

 

 

 

2. 변수와 척도

  • 척도는 어떠한 현상을 측정하기 위해 만든 도구를 의미한다.
  • 연구자가 관심 있는 대상인 모집단이 존재하고, 그 모집단이 가지고 있는 속성인 변수가 존재하는데, 이 변수를 어떠한 도구를 이용해서 측정할 것인가를 이야기한다.
  • 척도는 위 변수를 측정하는 방법으로써 1:1로 대응되어 존재한다.
    (이산형 변수는 등간 변수라고도 부르며, 연속형 변수는 비율 변수라고도 부르므로, 변수의 이름과 척도의 이름은 동일하다.)

  • 변수와 헷갈리기 꽤 쉬운 개념으로, 척도는 종종 변수와 혼용되어 지칭되기도 한다.
  • 일반적으로, 명목 변수는 명목 척도로, 서열 변수는 서열 척도로, 등간 변수는 등간 척도로, 비율 변수는 비율 척도로 측정하기 때문에 이를 혼용하여 지칭해도 정보가 잘못 전달되거나 하는 문제가 발생할 가능성은 크지 않다.
  • 그러나, 변수와 척도는 동일한 개념은 아니기 때문에 주의할 필요는 있는데, 위 사진에서 보듯, 상위 척도를 이용하여, 보다 하위 레벨의 변수를 측정할 수도 있기 때문이다.
  • 예를 들어, 길이와 같은 연속형 변수를 1m보다 작다, 크다와 같이 이분화시켜 명목형 척도로 측정할 수 있으며, 10 cm 이하, 10cm ~ 1m 사이, 1m 이상 과 같은 서열 척도로 측정할 수도 있다.
  • 그러나, 하위 수준의 변수를 보다 높은 수준의 척도로는 측정할 수 없다(성별과 같은 명목 척도를 연속형 척도로 측정할 수는 없다).

 

 

 

 

3. 질적 변수(Quantitative Variable)

  • 범주형 변수(Categorical Variable)이라고도 하며, 말 그대로 변수 안에 있는 데이터들이 범주화되어 있다는 뜻이다.
  • 즉, 변수 안에 N개의 집단이 존재하며, 그 집단을 숫자로 나타낸다 할지라도 그 숫자는 데이터의 양을 줄이기 위한 목적이지, 그 숫자엔 숫자로써의 의미가 존재하지 않는다.
  • 즉, 문자로 나타낼 수 있는 변수를 의미한다.

 

3.1. 명목 변수(Nominal Variable)

  • 완전히 서로 관련 없는 문자들로 이루어진 변수를 의미한다.
  • 이를 쉽게 데이터화 하기 위해 숫자로 나타낸다 할지라도, 그 숫자에 대해선, 서로 구분하는 의미만 존재하지, 숫자가 가진 그 어떠한 정보도 존재하지 않는다.
  • 예를 들어, 성별의 남자를 1로, 여자를 2로 표기한다 할지라도, 여기에는 "남자는 1등 여자는 2등이다.", "여자가 남자보다 2배 더 우월하다."와 같은 의미는 전혀 존재하지 않는다.
  • 토트넘 축구 선수인 "손흥민의 등번호 7번"과 주장인 "위고 요리스의 등번호 1번"에는 그 어떠한 숫자적 의미가 존재하지 않는다.
  • 야구의 4번 타자와 같은 특정 숫자에 상징성이 있을 수는 있으나, 등번호를 늘여놓았을 때, 그 순서에 일정한 방향을 가진 서열이 존재하지 않기 때문에, 부여된 숫자는 단순히 객체를 구분하는 역할만 한다.

 

3.2. 서열 변수(Ordinal Variable)

  • 명목 척도 중에 순서의 개념이 존재하는 변수를 의미한다.
  • 예를 들어, 최종 학력은 "무학", "초등학교", "중학교", "고등학교", "대학교", "대학원"과 같이 명목형 척도로 측정되지만, 순서가 존재하기 때문에, 이를 숫자로 만들었을 때, 그 숫자에 아무런 의미가 존재하지 않는다고 할 수는 없다.
  • 즉, 숫자의 개념 중 순서의 개념이 존재하는 변수이다.
  • "무학 = 0, 초등학교 = 1, 중학교 = 2, 고등학교 = 3, 대학교 = 4, 대학원 = 5"로 나타낸다고 할 때, 이를 늘어놓으면, 5가 2보다 뒤에 있다라고는 할 수 있지만, "대학원(5) - 고등학교(3) = 중학교(2)"라고 할 수는 없다.

 

 

 

 

4. 양적 변수(Qualitative Variable)

  • 단순하게 연속형 변수(Continuous)라고 지칭하는 경우도 종종 있는데, 이 경우, 양적 변수를 구성하는 이산형 데이터와 연속형 데이터를 구분하기 어려워질 수 있으므로, 그냥 양적 변수라고 하길 추천한다.
  • 데이터를 숫자로 나타냈을 때, 숫자 그 자체인 경우다.
  • 그 숫자를 이산형으로만 나타낼 수 있는가, 연속형으로도 나타낼 수 있는가에 따라 이산형 변수(등간 변수)와 연속형 변수(비율 변수)가 나뉜다.

 

4.1. 등간 변수(Interval Variable)

  • 이산형으로만 나타낼 수 있는 숫자로, 각 숫자 사이가 일정하며, 그 사이에 그 어떠한 값도 존재하지 않는 데이터를 의미한다.
  • 이산형이라는 말은 숫자가 연속되지 않고 일정한 거리로 떨어져 있다는 소리로, 이해하기 쉽게 이야기하면 소수점이 존재하지 않는 경우라고 할 수 있다(물론 이는 이해하기 쉬운 예시이지 온도와 같이 소수점을 갖는 등간 변수 역시 존재하므로, 등간 변수에는 절대 소수점이 등장하지 않는다고 생각해서는 안된다).
  • 예를 들어, 남극에 있는 펭귄 수는 이산 되어 있는 숫자다. 펭귄이 반마리만 있는 경우, 이미 죽은 펭귄이므로, 이를 펭귄 0.5마리라고 할 수는 없다. 
  • 이글루 안에 펭귄 5마리가 있을 때, 이 이글루 안에 펭귄을 2마리 더 넣어 7마리로 만들 수 있고, 펭귄 3마리를 다시 빼서 4마리로 만들 수도 있으므로, 가감(더하기 빼기)이 가능하다.
  • 그러나, 펭귄 5마리에게 펭귄 2마리를 곱하거나 나눈다는 것은 불가능하며, 펭귄 1마리를 2로 나누겠다는 소리는 애초에 단위가 다르기 때문에 시도해서도 안되며, 펭귄을 죽이겠다는 소리이므로, 이런 상상은 하지도 말자.
  • 등간 변수와 비율 변수는 꽤 구분하기 어려운 개념인데, 대표적인 등간 변수인 온도는 36.2˚와 같이 소수점이 있는 경우도 존재하기 때문이다.
  • 온도는 절대적인 기준을 갖는 것이 아닌, 일정한 간격을 가지고 상대적으로 존재하는 것이기 때문에 36˚보다 18˚가 두 배 더 춥다고 할 수는 없다.

 

4.2. 비율 변수(Ratio Variable)

  • 연속형 숫자로 나타낼 수 있는 데이터로, 정수 사이에 수많은 값이 존재한다.
  • 170 cm와 171cm 사이에는 170.5, 170.05, 170.005와 같이 소수점으로 나타낼 수 있는 수많은 숫자가 존재한다.
  • 이를 비율 변수라고 부르는 이유는 측정된 데이터를 비율로 계산이 가능하기 때문으로, 이러한 비율 변수는 절대적인 기준이 존재하기 때문에 곱하고 나눌 수 있다.
  • 이 절대적인 기준이라는 것은 이 속성이 존재하지 않을 수 있는 절대 영점(Absolute Zero Point)이 존재한다는 소리로, 길이나 무게는 0이 되는 순간, 대상에게 있어 그 속성의 값이 "없다"가 될 수 있으나, 온도는 존재하지 않는다는 개념이 존재하지 않는다.
  • 비율 변수는 절대적인 기준이 존재하기 때문에 더하기, 빼기, 곱하기, 나누기가 모두 가능하다.
  • 비율 변수는 통계 분석에 있어 가장 편리한 대상으로, 모든 척도로 측정할 수 있기 때문에, 하위 변수로 쉽게 변환할 수 있다. 그 덕에 모든 통계 분석 기법의 대상이 될 수 있다.

 

 

 

 

5. 정리

  • 변수는 대상 집단(모집단)이 가지고 있는 속성이며, 이 변수는 크게 질적 변수(명목 변수, 서열 변수), 양적 변수(이산형 변수, 연속형 변수)로 나뉜다.
  • 변수를 측정하는 도구는 척도이며, 상위 변수는 하위 변수로 그 수준을 바꿀 수 있으며, 그로 인해 하위 척도로도 상위 변수를 측정할 수 있다.
  • 변수를 나누는 기준을 정리한 표는 다음과 같다.
변수 순서 더하기, 빼기 곱하기, 나누기 절대영점
명목 변수 X X X X
서열 변수 O X X X
등간 변수 O O X X
비율 변수 O O O O
  • 위 기준만으로 나누기 애매한 경우도 종종 존재하기 때문에, 이를 보다 단순화시킨 질적 변수, 양적 변수로 이분화시켜 변수를 구분하는 경우가 많다.
  • 변수의 종류에 따라 사용할 수 있는 통계 분석 기법이 크게 달라지기 때문에 변수의 종류가 무엇인지 판단하는 능력은 통계 분석을 위해 필수로 가지고 있어야 하는 기술이다.
728x90
반응형

'Python으로 하는 기초통계학 > 기본 개념' 카테고리의 다른 글

중심경향치(1) - 최빈값, 중앙값  (0) 2021.03.03
도수분포표와 시각화  (0) 2021.03.02
도수분포표  (0) 2021.03.02
통계 분석을 위한 데이터 준비  (0) 2021.03.01
통계학이란?  (0) 2021.02.26
728x90
반응형

R은 기본적으로 스칼라(Scalar), 벡터(Vector), 리스트(List), 행렬(Matrix), 배열(Array), 데이터 프레임(Data Frame)으로 총 6개의 데이터 타입을 가지고 있다.

물론 이 외에도 다른 라이브러리에서 제공하는 tibble, fread등 다양한 형태가 있지만, 이는 특수한 상황에서 쓰이거나 추후 해당 데이터 타입을 다루는 라이브러리를 학습하면서, 다시 다루게 될 것이므로, 거기까지 생각하진 말도록 하자.

R을 능숙하게 쓰기 위해선 각각의 데이터 타입이 갖는 특징을 이해하고 있어야하며, 특히 Indexing을 이용한, 내가 원하는 데이터만 골라서 가져오기는 Data Handling(데이터 전처리)에서 가장 기본이 되는 부분이다.

 

 

1. 변수(Variable)

데이터 타입 하나하나에 대해 알아보기 전에 변수(Variable)에 대해 알아보자.

변수란 무엇일까?

한국 위키피디아에서 변수는 다음과 같게 설명하고 있다.

  • 변수(變數, variable)는 수학에서 쓰이는 수식에 따라서 변하는 값을 뜻한다.
  • 변수(variable)는 컴퓨터 프로그래밍에서 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적인 이름이다.

필자가 위 내용을 바탕으로 변수를 좀 더 쉽게 줄여 쓴다면

변수(Variable): "변하는 값으로 다양한 값을 지닐 수 있는 하나의 속성"이라 할 수 있다.
즉, 가변적인 값이 할당되고(변하는 값), 문자, 숫자와 같은 다양한 값이 주어지는 것이 바로 변수이다.

 

 

2. 변수 이름 규칙

R에서 변수 이름 명명 시, 다음과 같은 규칙을 다른다.

  • 알파벳, 숫자, "_"(Underscore), "."(Period)로 구성된다.
  • 첫 글자는 문자 또는 "."로 시작해야한다.
  • "."로 시작한다면 "." 뒤에는 숫자가 올 수 없다.(소수로 인식되므로)
  • 예약어(Reserved word)는 사용할 수 없다.
    (break, else, FALSE, for, function, if, in, Inf, NA, NaN, next, NULL, repeat, TRUE, while 등)
  • 단, T나 F 같은 TRUE와 FALSE로 초기화된 전역변수(Global variable)는 사용할 수 있다.

 

 

3. 변숫값 할당

  • "<-", "<<-", "=" 를 할당 연산자로 사용할 수 있다.
  • "<-"는 어느 곳에서나 쓸 수 있는 반면에, "<<-"는 명령의 최상위 수준에서만 사용할 수 있다.
  • 함수 호출과 동시에 변수에 값을 할당하는 목적으로는 "<-"만 사용할 수 있다.
  • "<-"의 단축키는 "art" + "-"이다. 매우 자주 활용하는 단축키이므로 잊지말도록 하자.

 

 

다음 포스트에선 데이터 타입의 하나인 스칼라(Scalar)에 대해 알아보도록 하자.

728x90
반응형

'R > Basic' 카테고리의 다른 글

R(기초) 연산자와 변수 타입  (0) 2020.06.18
R(기초) 데이터 타입: 벡터(Vector)(2부)  (0) 2020.06.18
R(기초) 데이터 타입: 벡터(Vector)(1부)  (0) 2020.06.18
R(기초) 데이터 타입: 스칼라 (Scalar)  (0) 2020.06.18
R이란?  (0) 2020.06.16

+ Recent posts