728x90
반응형
이전 포스트에서 데이터 프레임을 만들어보았으니, 이번에는 데이터 프레임의 부위별 이름을 알아보자.
데이터 프레임의 구조와 용어 정리
- 위 표는 우리가 지금까지 봐온 데이터 프레임이다. 데이터 프레임의 생김새는 우리가 자주 봐왔던 표(Table)처럼 생겼다.
- Data를 사용하는 분야에서 기본적으로 사용하는 관계형 데이터베이스(Relational Database, RDM)의 테이블(Table)도 데이터 프레임과 동일하게 생겼다.
- RDB를 여기저기서 많이 사용하다 보니, 그 용어를 데이터 프레임에도 사용하는 경우가 많기 때문에, RDB에서 사용하는 용어도 함께 정리하도록 하겠다.
1. 칼럼(Column)
- 칼럼(Column)은 단어 그대로 열을 의미하며, 행과 열을 가진 데이터에서 열은 모두 칼럼이라고 불린다.
- 변수(Variable), 속성(Attribute), 필드(Field)라고도 불린다.
- 데이터에서 객체(대상)가 가지고 있는 특징이 들어간다.
- 예를 들어, 이름, 성별, 나이와 같은 대상 집단이 가지고 있는 특징이다.
- 차수(Degree): RDB에서는 칼럼의 수를 가리킨다.
예) 위 테이블의 Degree는 11이다. - 도메인(Domain): RDB에서 한 칼럼에서 가질 수 있는 값의 집합
예) 성별의 도메인은 "남", "여" 둘 뿐이며, 그 외의 값은 들어갈 수 없다.
2. 로우(Row)
- 말 그대로 행을 가리키며, 데이터 하나하나를 의미한다. 그러다 보니, 모양이 데이터 프레임과 조금 다르더라도, 데이터 하나하나를 지칭할 때, 단순하게 Row라고 부르기도 한다.
- 튜플(Tuple), 레코드(Record)라고도 불린다.
- 데이터의 대상이 되는 객체 하나하나를 의미한다.
- 예를 들어, 위 데이터 프레임에서 index가 417번인 사람은, 고객번호(PassengerId)가 1309번이고, 이름이 Peter, Master. Michael J이며, 성별이 male인 사람이다.
- 카디널리티(Cardinality): 행의 총 개수이다.
3. 인덱스(Index)
- 데이터 프레임만의 특징으로, index는 중복될 수도 있고, 동일한 index에 해당하는 row의 값이 다를 수도 있다.
- index를 어떻게 조작하느냐에 따라, 데이터 프레임에서의 데이터 조회 속도 차이가 엄청 커진다.
- RDB의 key와 유사해 보이지만, RDB의 key는 고유 개체를 식별할 수 있는 유니크한 값임에 반해, 데이터 프레임의 index는 중복이 가능하고, index가 동일하나, row에 있는 값은 다를 수 있으므로, key와 굉장히 다르다.
지금까지 데이터 프레임의 행, 열의 다른 용어와 그것이 의미하는 바에 대해 간단히 다뤄봤다. 위 단어 외에도 인스턴스(Instance), 엔티티(Entity)와 같은 다양한 단어가 있으나, 데이터 프레임이던 테이블이던 기본적으로 행과 열이 중심이기 때문에 위 용어만 알면, 데이터에 대한 기본적인 의사소통은 할 수 있을 것이다.
다음 포스트에서는 index를 가지고 노는 방법에 대해 학습해보도록 하겠다.
728x90
반응형
'Python > Pandas' 카테고리의 다른 글
Pandas-데이터 프레임, 데이터 조회하기-1. Index로 조회하기 (2) | 2021.12.09 |
---|---|
Pandas-데이터 프레임 컬럼명 가지고 놀기 (2) | 2021.02.24 |
Pandas-데이터 프레임 Index 가지고 놀기 (0) | 2021.02.18 |
Pandas-데이터 프레임 만들기 (0) | 2021.02.16 |
Pandas-판다스 소개와 데이터 타입 (1) | 2021.02.11 |