728x90
반응형

캐글(Kaggle)이란?

 빅데이터 분석에 관심이 있는 사람이라면, 한 번쯤 캐글(Kaggle)에 대해 들어봤을 것이다.

 캐글은 2010년 설립된 예측모델 및 분석대회 플랫폼으로, 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁하는 곳이다. 2017년 3월 구글에 인수되었다(위키피디아)

  • 캐글(Kaggle)은 말 그대로 빅데이터 분석가들의 사냥터라고 할 수 있는데, 빅데이터 분석가들의 사냥감인 데이터가 널려 있으며, 서로서로 그 데이터를 얼마나 잘 요리했는지를 비교할 수도 있다.

 

 

 

1. Competitions

  • 캐글 입장 후, Compete를 보면, 수많은 상금이 걸린 도전 과제들이 있는 것을 볼 수 있다.
  • 여기서 마음에 드는 과제를 선택하면 "Join Competition"이라는 버튼이 생기는 것을 볼 수 있는데, 이를 클릭해서, 해당 대회에 참여할 수 있다.

  • 위 사진에서 각 버튼은 다음 기능을 한다.
  1. Overview: 문제에 대한 소개와 정의
  2. Data: 예측 모델 생성에 필요한 데이터셋과 Feature가 되는 Fields가 설명되어 있으며, 대회에 쓰일 데이터 셋을 다운로드할 수 있다.
  3. Code: 대회 참가 시, 캐글에서 제공하는 서버에서 작업할 수 있게 해 주며, 다른 사람의 코드를 참고할 수 있음.
  4. Discussion: 질의응답 공간
  5. Leaderboard: 모델의 정확도를 기준으로 랭킹이 매겨지는 곳
  6. Dadataset: 관련 데이터 셋을 볼 수 있다.
  • 대회 진행 방식은 데이터를 다운로드하여 내 PC에서 작업하거나 캐글에서 제공하는 서버에 접속해 작업을 하는 방식이 있다.

 

  • 대회 참가 후, Code를 클릭하면 New Notebook을 눌러, 커널에 접속할 수 있다.

  • 여기서 코드를 작성할 수 있으며, 그 코드가 정상적으로 실행된다면, Commit 하여, 결과를 업로드하고 정확도를 기반으로 점수를 확인할 수 있다.
  • 상위 랭킹에 들어간다면, 그에 대한 대회의 보상을 받을 수도 있다고 하니, 실력도 늘리고, 용돈 벌이도 할 겸 해서 한 번쯤 해보는 것을 추천한다.

 

 

 

 

2. 타이타닉 데이터

  • 이번에 학습에 사용해볼 데이터인 타이타닉 데이터를 구해보자.
  • 위 과정을 통해 직접 찾아갈 수도 있으나, 이 버튼을 눌러서 바로 이동할 수도 있다.

 

  • 타이타닉 데이터의 변수별 정보는 다음과 같다.

  • 이곳에서 Titanic Data를 다운로드할 수 있으며, 데이터의 칼럼 별 개형 등을 볼 수도 있다.
  • 데이터의 각 변수에 대한 정보를 최대한 얻은 다음 분석을 시작하도록 하자.

 

 

 

 이밖에도 캐글은 커뮤니티나 빅데이터 분석의 기반이 되는 것들을 공부할 수 있는(Courses) 공간도 따로 제공하므로, 많이 사용해보도록 하자.

 다음 포스트에서는 이번에 받은 타이타닉 데이터를 이용해서, 생존자 예측 모델을 만들어보도록 하겠다.

728x90
반응형

+ Recent posts