728x90
반응형
이전 Scalar를 설명하면서 R에 있는 기본적인 Class들에 대해 설명을 하다보니, 분량 조절에 실패를 하고 말았다....
이번엔 R 데이터 타입의 대표 주자인 벡터(Vector)에 대해 설명할 것인데, 벡터는 스칼라보다 다뤄야할 것도 많고, 매우 중요하기도 하므로, 2개 파트로 끊어서 진행할 예정이다.
벡터(Vector)
: R에서 벡터는 가장 대표적으로 사용되는 타입으로, 다른 프로그래밍 언어의 배열(Array)와 대응되는 개념이라고 볼 수 있다. 벡터의 가장 큰 특징은 단 한가지의 클래스만 담을 수 있다는 것이다.
- 벡터는 한 가지 Class만 담을 수 있으며, 만약 서로 다른 Class가 섞여있다면, 자동으로 그에 맞는 형변환이 이루어진다.
- R의 벡터는 슬라이스(Slice)를 제공한다. 슬라이스란 벡터의 일부를 잘라낸 뒤, 이를 또 다시 벡터처럼 사용할 수 있는 개념이다.
- 벡터는 c()안에 원하는 인자를 넣어서 생성할 수 있다.
(c = Combine, 하나의 단체로 결합하다.) - 벡터는 중첩될 수 없다. 따라서 벡터 안에 벡터를 정의하면 단일 차원의 벡터로 변경된다.
- 벡터의 각 원소에는 이름을 부여할 수 있다.
# 벡터를 생성해보자.
x <- c("1", "2", "3")
x
## [1] "1" "2" "3"
# 벡터 안에 벡터를 넣어서 생성해보자.
c(1,2,3,c(1,2,3))
## [1] 1 2 3 1 2 3
- Python의 list와 달리 R의 벡터는 벡터 안에 벡터를 넣을 수 없다.
# 벡터의 각 원소에 이름을 지어보자.
math <- c(60, 80, 70)
names(math) <- c("kim", "seo", "park")
math
- R의 코드는 굉장히 직관적이라고 할 수 있는데, names(data)는 data의 이름을 가지고 오는 함수이다.
- data의 이름을 가지고 오는 함수에 data의 길이와 같은 벡터를 넣으면, 그것을 이름으로 사용할 수 있다.
## kim seo park
## 60 80 70
names(math)
## [1] "kim" "seo" "park"
벡터의 길이 관련 함수
length(): 객체의 길이를 반환한다.
- python의 len()과 같은 역할을 하는 함수로 몇 개의 인자를 가지고 있는지 확인할 수 있다.
# 벡터의 길이를 확인해보자.
x <- c(1,2,5,3)
length(x)
## [1] 4
NROW(): 벡터나 행렬의 행의 수를 반환한다.
- NROW()는 그렇게 자주 쓰이는 함수는 아니며, 행렬이나 데이터프레임의 행 개수를 확인하는 nrow()와 유사한 함수이다. 차이는 벡터에서 사용될 수 있는지의 여부이다.
- 벡터는 각각의 인자를 행으로 잡고 있기 때문에, 행의 개수로 인자의 수를 반환한다. length()와 동일한 기능을 가지고 있으므로, 편하게 length()를 쓰도록 하자.
# 벡터의 행의 수를 확인해보자.
NROW(x)
## [1] 4
unique(): 중복된 값을 제외한 벡터.
- 데이터 프레임에서도 즐겨 사용되는 함수로, 벡터에서는 단순하게 중복 값을 없애는 함수로 인지하면 된다.
(데이터 프레임에선 중복 행을 제거한다.) - 벡터, 데이터 프레임 모든 곳에서 자주 사용하는 함수이므로 꼭, 기억하도록 하자.
# 중복값을 제외한 벡터를 생성해보자.
x <- c(1,1,3,2,3,4,2)
unique(x)
## [1] 1 3 2 4
벡터 내 데이터 접근(Indexing)
: Index를 통해 내가 원하는 데이터를 가지고 오는 것은 데이터 분석의 사전 작업인 전처리(Data Handling)에서 필수 중에 필수이다.
- 벡터는 [] 안에 Index를 적어서 내가 원하는 원소를 가지고 올 수 있다.
- R의 인덱스는 Python을 비롯한 다른 언어들과 달리 1로 시작한다.
문법 | 의미 |
x[n] | 벡터 x의 n번째 원소를 가지고 온다. n은 숫자 또는 원소의 이름인 문자열이다.(names로 확인 가능) |
x[-n] | 벡터 x의 n번째 원소를 제외한 나머지를 가지고 온다. n은 위의 n과 동일하다. |
x[idx_vector] | 벡터 x로부터 index vextor에 지정된 원소를 가지고 온다. 이때 idx_vector는 index를 표현하는 숫자 벡터 또는 원소의 이름을 표현하는 문자열 벡터이다. |
x[start:end] | 벡터 x의 start부터 end까지의 원소를 가지고 온다. 반환 되는 값은 start의 위치 값과 end 위치 값을 모두 포함한다. |
# 다양한 indexing을 통해 내가 원하는 원소를 가지고 와 보자.
x <- c("apple", "banana", "melon", "chocolate", "ice cream", "corn")
x[5]
## [1] "ice cream"
x[-4]
## [1] "apple" "banana" "melon" "ice cream" "corn"
x[c(1,3,5)]
## [1] "apple" "melon" "ice cream"
x[2:5]
## [1] "banana" "melon" "chocolate" "ice cream"
- 이번엔 이름으로 가지고 와보자
# 다양한 indexing을 통해 내가 원하는 원소를 가지고 와 보자.
English <- c(60, 70, 80, 90)
names(English) <- c("Kim", "Lee", "Park", "Lim")
English
## Kim Lee Park Lim
## 60 70 80 90
English["Park"]
## Park
## 80
English[c("Kim", "Lim")]
## Kim Lim
## 60 90
# 특정 index의 이름도 쉽게 알 수 있다.
names(English)[2]
## [1] "Lee"
벡터는 R에서 가장 기본적으로 사용되는 데이터 타입이다보니, 다룰 것이 꽤 많다. 다음 포스트에선 벡터의 연산과 연속하는 벡터를 만드는 법을 한번 공부해보도록 하자.
728x90
반응형
'R > Basic' 카테고리의 다른 글
R(기초) 연산자와 변수 타입 (0) | 2020.06.18 |
---|---|
R(기초) 데이터 타입: 벡터(Vector)(2부) (0) | 2020.06.18 |
R(기초) 데이터 타입: 스칼라 (Scalar) (0) | 2020.06.18 |
R(기초)의 데이터 타입과 변수 (0) | 2020.06.17 |
R이란? (0) | 2020.06.16 |