'데이터 설명' 태그의 글 목록

데이터 설명

Tensorflow-2.1. 타이타닉 데이터 설명 2021.02.09

Tensorflow-2.1. 타이타닉 데이터 설명

만년필잉크 2021. 2. 9. 16:39

2021. 2. 9. 16:39

728x90

이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, 어떤 변수가 있는지를 확인해보자.

타이타닉 데이터 가져오기

이전에 받았던 타이타닉 데이터가 어떻게 생겼는지 보고, 변수들을 파악해보자.

1. 작업 파일 이동시키기

만약, 작성자와 같은 주피터 노트북 사용자라면, 아래와 같이 작업 파일과 같은 경로 안에 Data를 넣는 폴더를 만들어, 데이터를 넣어놓자.

현재 작업 중인 주피터 노트북 파일인 Report04_210209.ipynb와 같은 경로에 Dataset이라는 파일을 새로 만들었다.

이전에 다운로드하였던 titanic 압축파일 안에 있던 3 파일 "gender_submission.csv", "test.csv", "train.csv"을 Upload 시키자.

2. 데이터 불러오기

import pandas as pd
import numpy as np
import os

# Global Variable
file_path = "./Dataset"

# Function
def import_Data(file_path):

    result = dict()
    for file in os.listdir(file_path):

        file_name = file[:-4]
        result[file_name] = pd.read_csv(file_path + "/" + file)

    return result

Rawdata_dict = import_Data(file_path)

os.listdir(디렉터리): 있는 파일 list를 가지고 온다.
pd.read_csv(파일 경로): 있는 csv파일을 가지고 온다.
데이터를 이름으로 하나하나 불러오지 않고, 특정 디렉터리 안에 있는 모든 파일들을 해당 파일의 이름으로 딕셔너리에 넣어 가지고 왔다.
이렇게 데이터 프레임을 딕셔너리로 관리하는 경우, 특정 목적에 맞는 데이터들을 보다 쉽게 관리할 수 있으며, 데이터의 이름을 특정 패턴을 가진 상태로 부여할 수 있다.
또한, 한 번에 특정 디렉터리 내 모든 파일들을 모두 가져올 수 있으므로, 데이터를 가지고 올 때도 꽤 편하다.

3. 데이터가 어떻게 생겼는지 보도록 하자.

>>> dict_key = list(Rawdata_dict.keys())
>>> dict_key
['gender_submission', 'test', 'train']

>>> Rawdata_dict[dict_key[0]]

gender_submission은 Row(행) 418개, Column(열, 변수) 2개로 구성된 데이터다.
PassengerID: 승객 ID이다.
Survived: 생존 여부로, 0 = 사망, 1 = 생존이다.

test.csv에 담긴 데이터를 보자

>>> Rawdata_dict[dict_key[1]]

test는 Row(행) 418개, Column(열, 변수) 11개로 구성된 데이터다.
PassengerID: 고객 번호
Pclass: 티켓의 등급이다. 1 =1st(Upper), 2 = 2nd(Middle), 3 = 3rd(Lower)이다.
Name: 승객의 이름
Sex: 성별
Age: 연령
SibSp: 타이타닉호에 탑승한 형제/배우자의 수
Parch: 타이타닉호에 탑승한 부모/자녀의 수
Ticket: 티켓 번호
Fare: 승객 요금
Cabin: 객실 번호
Embarked: 기항지 위치, C(Cherbourg), Q(Queenstown), S(Southampton)으로 3곳이 있다.

train.csv에 담긴 데이터를 보자

>>> Rawdata_dict[dict_key[2]]

train은 Row(행) 891개, Column(열, 변수) 12개로 구성된 데이터다.
변수의 구성은 test와 동일하나, test와 달리 Survived라는 변수가 있다.
test와 gender_submission은 PassengerID도 동일하며 Row의 수도 418개로 동일하다.
즉, test Dataset의 Survived는 gender_submission에 있는 것임을 알 수 있다.

지금까지 타이타닉 데이터를 불러와서 구성하고 있는 데이터에 대해 차근차근 살펴보았다. 다음 포스트에서는 본격적으로 데이터 핸들링을 하여, 생존자 예측 모델을 만들어보도록 하겠다.

728x90

저작자표시 비영리 동일조건 (새창열림)

'Machine Learning > TensorFlow' 카테고리의 다른 글

Tensorflow-2.3. 타이타닉 생존자 분류 모델(2)-원-핫 벡터 (0)	2021.02.10
Tensorflow-2.2. 타이타닉 생존자 분류 모델(1) (2)	2021.02.10
Tensorflow-2.0. 캐글(Kaggle)과 타이타닉 데이터 (0)	2021.02.09
Tensorflow-1.6. 기초(7)-기초 모델 만들기(2)-Input 4개, Output 2개 (0)	2021.02.09
Tensorflow-1.5. 기초(6)-기초 모델 만들기(1)-변수 2개인 경우 (0)	2021.02.08

PREV 이전 1 NEXT 다음

만년필잉크의 데이터 분석 지식 저장소