728x90
반응형
이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, 어떤 변수가 있는지를 확인해보자.
타이타닉 데이터 가져오기
- 이전에 받았던 타이타닉 데이터가 어떻게 생겼는지 보고, 변수들을 파악해보자.
1. 작업 파일 이동시키기
- 만약, 작성자와 같은 주피터 노트북 사용자라면, 아래와 같이 작업 파일과 같은 경로 안에 Data를 넣는 폴더를 만들어, 데이터를 넣어놓자.
- 현재 작업 중인 주피터 노트북 파일인 Report04_210209.ipynb와 같은 경로에 Dataset이라는 파일을 새로 만들었다.
- 이전에 다운로드하였던 titanic 압축파일 안에 있던 3 파일 "gender_submission.csv", "test.csv", "train.csv"을 Upload 시키자.
2. 데이터 불러오기
import pandas as pd
import numpy as np
import os
# Global Variable
file_path = "./Dataset"
# Function
def import_Data(file_path):
result = dict()
for file in os.listdir(file_path):
file_name = file[:-4]
result[file_name] = pd.read_csv(file_path + "/" + file)
return result
Rawdata_dict = import_Data(file_path)
- os.listdir(디렉터리): 있는 파일 list를 가지고 온다.
- pd.read_csv(파일 경로): 있는 csv파일을 가지고 온다.
- 데이터를 이름으로 하나하나 불러오지 않고, 특정 디렉터리 안에 있는 모든 파일들을 해당 파일의 이름으로 딕셔너리에 넣어 가지고 왔다.
- 이렇게 데이터 프레임을 딕셔너리로 관리하는 경우, 특정 목적에 맞는 데이터들을 보다 쉽게 관리할 수 있으며, 데이터의 이름을 특정 패턴을 가진 상태로 부여할 수 있다.
- 또한, 한 번에 특정 디렉터리 내 모든 파일들을 모두 가져올 수 있으므로, 데이터를 가지고 올 때도 꽤 편하다.
3. 데이터가 어떻게 생겼는지 보도록 하자.
>>> dict_key = list(Rawdata_dict.keys())
>>> dict_key
['gender_submission', 'test', 'train']
>>> Rawdata_dict[dict_key[0]]
- gender_submission은 Row(행) 418개, Column(열, 변수) 2개로 구성된 데이터다.
- PassengerID: 승객 ID이다.
- Survived: 생존 여부로, 0 = 사망, 1 = 생존이다.
test.csv에 담긴 데이터를 보자
>>> Rawdata_dict[dict_key[1]]
- test는 Row(행) 418개, Column(열, 변수) 11개로 구성된 데이터다.
- PassengerID: 고객 번호
- Pclass: 티켓의 등급이다. 1 =1st(Upper), 2 = 2nd(Middle), 3 = 3rd(Lower)이다.
- Name: 승객의 이름
- Sex: 성별
- Age: 연령
- SibSp: 타이타닉호에 탑승한 형제/배우자의 수
- Parch: 타이타닉호에 탑승한 부모/자녀의 수
- Ticket: 티켓 번호
- Fare: 승객 요금
- Cabin: 객실 번호
- Embarked: 기항지 위치, C(Cherbourg), Q(Queenstown), S(Southampton)으로 3곳이 있다.
train.csv에 담긴 데이터를 보자
>>> Rawdata_dict[dict_key[2]]
- train은 Row(행) 891개, Column(열, 변수) 12개로 구성된 데이터다.
- 변수의 구성은 test와 동일하나, test와 달리 Survived라는 변수가 있다.
- test와 gender_submission은 PassengerID도 동일하며 Row의 수도 418개로 동일하다.
- 즉, test Dataset의 Survived는 gender_submission에 있는 것임을 알 수 있다.
지금까지 타이타닉 데이터를 불러와서 구성하고 있는 데이터에 대해 차근차근 살펴보았다. 다음 포스트에서는 본격적으로 데이터 핸들링을 하여, 생존자 예측 모델을 만들어보도록 하겠다.
728x90
반응형
'Machine Learning > TensorFlow' 카테고리의 다른 글
Tensorflow-2.3. 타이타닉 생존자 분류 모델(2)-원-핫 벡터 (0) | 2021.02.10 |
---|---|
Tensorflow-2.2. 타이타닉 생존자 분류 모델(1) (2) | 2021.02.10 |
Tensorflow-2.0. 캐글(Kaggle)과 타이타닉 데이터 (0) | 2021.02.09 |
Tensorflow-1.6. 기초(7)-기초 모델 만들기(2)-Input 4개, Output 2개 (0) | 2021.02.09 |
Tensorflow-1.5. 기초(6)-기초 모델 만들기(1)-변수 2개인 경우 (0) | 2021.02.08 |