728x90
반응형
캐글(Kaggle)이란?
빅데이터 분석에 관심이 있는 사람이라면, 한 번쯤 캐글(Kaggle)에 대해 들어봤을 것이다.
캐글은 2010년 설립된 예측모델 및 분석대회 플랫폼으로, 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁하는 곳이다. 2017년 3월 구글에 인수되었다(위키피디아)
- 캐글(Kaggle)은 말 그대로 빅데이터 분석가들의 사냥터라고 할 수 있는데, 빅데이터 분석가들의 사냥감인 데이터가 널려 있으며, 서로서로 그 데이터를 얼마나 잘 요리했는지를 비교할 수도 있다.
1. Competitions
- 캐글 입장 후, Compete를 보면, 수많은 상금이 걸린 도전 과제들이 있는 것을 볼 수 있다.
- 여기서 마음에 드는 과제를 선택하면 "Join Competition"이라는 버튼이 생기는 것을 볼 수 있는데, 이를 클릭해서, 해당 대회에 참여할 수 있다.
- 위 사진에서 각 버튼은 다음 기능을 한다.
- Overview: 문제에 대한 소개와 정의
- Data: 예측 모델 생성에 필요한 데이터셋과 Feature가 되는 Fields가 설명되어 있으며, 대회에 쓰일 데이터 셋을 다운로드할 수 있다.
- Code: 대회 참가 시, 캐글에서 제공하는 서버에서 작업할 수 있게 해 주며, 다른 사람의 코드를 참고할 수 있음.
- Discussion: 질의응답 공간
- Leaderboard: 모델의 정확도를 기준으로 랭킹이 매겨지는 곳
- Dadataset: 관련 데이터 셋을 볼 수 있다.
- 대회 진행 방식은 데이터를 다운로드하여 내 PC에서 작업하거나 캐글에서 제공하는 서버에 접속해 작업을 하는 방식이 있다.
- 대회 참가 후, Code를 클릭하면 New Notebook을 눌러, 커널에 접속할 수 있다.
- 여기서 코드를 작성할 수 있으며, 그 코드가 정상적으로 실행된다면, Commit 하여, 결과를 업로드하고 정확도를 기반으로 점수를 확인할 수 있다.
- 상위 랭킹에 들어간다면, 그에 대한 대회의 보상을 받을 수도 있다고 하니, 실력도 늘리고, 용돈 벌이도 할 겸 해서 한 번쯤 해보는 것을 추천한다.
2. 타이타닉 데이터
- 이번에 학습에 사용해볼 데이터인 타이타닉 데이터를 구해보자.
- 위 과정을 통해 직접 찾아갈 수도 있으나, 이 버튼을 눌러서 바로 이동할 수도 있다.
- 타이타닉 데이터의 변수별 정보는 다음과 같다.
- 이곳에서 Titanic Data를 다운로드할 수 있으며, 데이터의 칼럼 별 개형 등을 볼 수도 있다.
- 데이터의 각 변수에 대한 정보를 최대한 얻은 다음 분석을 시작하도록 하자.
이밖에도 캐글은 커뮤니티나 빅데이터 분석의 기반이 되는 것들을 공부할 수 있는(Courses) 공간도 따로 제공하므로, 많이 사용해보도록 하자.
다음 포스트에서는 이번에 받은 타이타닉 데이터를 이용해서, 생존자 예측 모델을 만들어보도록 하겠다.
728x90
반응형
'Machine Learning > TensorFlow' 카테고리의 다른 글
Tensorflow-2.2. 타이타닉 생존자 분류 모델(1) (2) | 2021.02.10 |
---|---|
Tensorflow-2.1. 타이타닉 데이터 설명 (0) | 2021.02.09 |
Tensorflow-1.6. 기초(7)-기초 모델 만들기(2)-Input 4개, Output 2개 (0) | 2021.02.09 |
Tensorflow-1.5. 기초(6)-기초 모델 만들기(1)-변수 2개인 경우 (0) | 2021.02.08 |
Tensorflow-1.4. 기초(5)-하이퍼 파라미터 튜닝 (0) | 2021.02.08 |