R(기초) 데이터 타입: 벡터(Vector)(1부)

만년필잉크 2020. 6. 18. 14:46

2020. 6. 18. 14:46

728x90

이전 Scalar를 설명하면서 R에 있는 기본적인 Class들에 대해 설명을 하다보니, 분량 조절에 실패를 하고 말았다....
이번엔 R 데이터 타입의 대표 주자인 벡터(Vector)에 대해 설명할 것인데, 벡터는 스칼라보다 다뤄야할 것도 많고, 매우 중요하기도 하므로, 2개 파트로 끊어서 진행할 예정이다.

벡터(Vector)

: R에서 벡터는 가장 대표적으로 사용되는 타입으로, 다른 프로그래밍 언어의 배열(Array)와 대응되는 개념이라고 볼 수 있다. 벡터의 가장 큰 특징은 단 한가지의 클래스만 담을 수 있다는 것이다.

벡터는 한 가지 Class만 담을 수 있으며, 만약 서로 다른 Class가 섞여있다면, 자동으로 그에 맞는 형변환이 이루어진다.
R의 벡터는 슬라이스(Slice)를 제공한다. 슬라이스란 벡터의 일부를 잘라낸 뒤, 이를 또 다시 벡터처럼 사용할 수 있는 개념이다.
벡터는 c()안에 원하는 인자를 넣어서 생성할 수 있다.
(c = Combine, 하나의 단체로 결합하다.)
벡터는 중첩될 수 없다. 따라서 벡터 안에 벡터를 정의하면 단일 차원의 벡터로 변경된다.
벡터의 각 원소에는 이름을 부여할 수 있다.

# 벡터를 생성해보자.
x <- c("1", "2", "3")
x

## [1] "1" "2" "3"

# 벡터 안에 벡터를 넣어서 생성해보자.
c(1,2,3,c(1,2,3))

## [1] 1 2 3 1 2 3

Python의 list와 달리 R의 벡터는 벡터 안에 벡터를 넣을 수 없다.

# 벡터의 각 원소에 이름을 지어보자.
math <- c(60, 80, 70)
names(math) <- c("kim", "seo", "park")
math

R의 코드는 굉장히 직관적이라고 할 수 있는데, names(data)는 data의 이름을 가지고 오는 함수이다.
data의 이름을 가지고 오는 함수에 data의 길이와 같은 벡터를 넣으면, 그것을 이름으로 사용할 수 있다.

##  kim  seo park 
##   60   80   70

names(math)

## [1] "kim"  "seo"  "park"

벡터의 길이 관련 함수

length(): 객체의 길이를 반환한다.

python의 len()과 같은 역할을 하는 함수로 몇 개의 인자를 가지고 있는지 확인할 수 있다.

# 벡터의 길이를 확인해보자.
x <- c(1,2,5,3)
length(x)

## [1] 4

NROW(): 벡터나 행렬의 행의 수를 반환한다.

NROW()는 그렇게 자주 쓰이는 함수는 아니며, 행렬이나 데이터프레임의 행 개수를 확인하는 nrow()와 유사한 함수이다. 차이는 벡터에서 사용될 수 있는지의 여부이다.
벡터는 각각의 인자를 행으로 잡고 있기 때문에, 행의 개수로 인자의 수를 반환한다. length()와 동일한 기능을 가지고 있으므로, 편하게 length()를 쓰도록 하자.

# 벡터의 행의 수를 확인해보자.
NROW(x)

## [1] 4

unique(): 중복된 값을 제외한 벡터.

데이터 프레임에서도 즐겨 사용되는 함수로, 벡터에서는 단순하게 중복 값을 없애는 함수로 인지하면 된다.
(데이터 프레임에선 중복 행을 제거한다.)
벡터, 데이터 프레임 모든 곳에서 자주 사용하는 함수이므로 꼭, 기억하도록 하자.

# 중복값을 제외한 벡터를 생성해보자.
x <- c(1,1,3,2,3,4,2)
unique(x)

## [1] 1 3 2 4

벡터 내 데이터 접근(Indexing)

: Index를 통해 내가 원하는 데이터를 가지고 오는 것은 데이터 분석의 사전 작업인 전처리(Data Handling)에서 필수 중에 필수이다.

벡터는 [] 안에 Index를 적어서 내가 원하는 원소를 가지고 올 수 있다.
R의 인덱스는 Python을 비롯한 다른 언어들과 달리 1로 시작한다.

문법	의미
x[n]	벡터 x의 n번째 원소를 가지고 온다. n은 숫자 또는 원소의 이름인 문자열이다.(names로 확인 가능)
x[-n]	벡터 x의 n번째 원소를 제외한 나머지를 가지고 온다. n은 위의 n과 동일하다.
x[idx_vector]	벡터 x로부터 index vextor에 지정된 원소를 가지고 온다. 이때 idx_vector는 index를 표현하는 숫자 벡터 또는 원소의 이름을 표현하는 문자열 벡터이다.
x[start:end]	벡터 x의 start부터 end까지의 원소를 가지고 온다. 반환 되는 값은 start의 위치 값과 end 위치 값을 모두 포함한다.

# 다양한 indexing을 통해 내가 원하는 원소를 가지고 와 보자.
x <- c("apple", "banana", "melon", "chocolate", "ice cream", "corn")
x[5]

## [1] "ice cream"

x[-4]

## [1] "apple"     "banana"    "melon"     "ice cream" "corn"

x[c(1,3,5)]

## [1] "apple"     "melon"     "ice cream"

x[2:5]

## [1] "banana"    "melon"     "chocolate" "ice cream"

이번엔 이름으로 가지고 와보자

# 다양한 indexing을 통해 내가 원하는 원소를 가지고 와 보자.
English <- c(60, 70, 80, 90)
names(English) <- c("Kim", "Lee", "Park", "Lim")

English

##  Kim  Lee Park  Lim 
##   60   70   80   90

English["Park"]

## Park 
##   80

English[c("Kim", "Lim")]

## Kim Lim 
##  60  90

# 특정 index의 이름도 쉽게 알 수 있다.
names(English)[2]

## [1] "Lee"

벡터는 R에서 가장 기본적으로 사용되는 데이터 타입이다보니, 다룰 것이 꽤 많다. 다음 포스트에선 벡터의 연산과 연속하는 벡터를 만드는 법을 한번 공부해보도록 하자.

728x90

저작자표시 (새창열림)

'R > Basic' 카테고리의 다른 글

R(기초) 연산자와 변수 타입 (0)	2020.06.18
R(기초) 데이터 타입: 벡터(Vector)(2부) (0)	2020.06.18
R(기초) 데이터 타입: 스칼라 (Scalar) (0)	2020.06.18
R(기초)의 데이터 타입과 변수 (0)	2020.06.17
R이란? (0)	2020.06.16

만년필잉크의 데이터 분석 지식 저장소