728x90
반응형

자! 이 블로그에 방문한 당신은 데이터 분석에 관심이 있거나, 잘못 클릭해서 들어온 사람 둘 중 하나일 것이다.

 

그리고 데이터 분석을 하려는 당신에게 지인 혹은 교수님, 인터넷 등은 R이나 Python을 추천했을 것이다!
물론 상용 프로그램인 SAS, STATA, SPSS, MATLAB 등을 추천했을 수도 있지만!

 

2018년, 캐글(단순하게, 빅데이터 분석의 던전이라고 생각하자.)에서 발표한 Programming Languages Most Used and Recommended by Data Scientist를 보면, Data Scientist가 사용하는 언어에서 압도적인 1위가 Python, 2위가 SQL, 3위가 R이라는 것을 알 수 있다!(https://businessoverbroadway.com/2019/01/13/programming-languages-most-used-and-recommended-by-data-scientists/)

 

 

위 내용만 보면, "오?? 그럼 Python이나 SQL을 바로 하면 될텐데, 굳이 R을 해야하나?"란 생각이 들 수 있는데, 필자가 단언컨데 데이터를 가지고 노는데 있어서 R만한 언어는 없다(공짜로 쓸 수 있는 오픈 소스 중에!).

애초에 Python과 SQL은 그 목적이 R과 다른 언어이고, Python에서 데이터 분석에 대표적으로 활용되는 모듈인 Pandas조차 R보다 부족한 기능이 꽤나 있는 편이다.
또, R을 잘다루는 사람에게 Pandas 사용은 정~~말 쉽다! 
(물론, R은 많은 태생적 한계를 가지고 있으므로, Main으로 사용하기는 힘들다. 즉... 당신은 R도 하고, Python도 해야만 한다.... )

 

 

R은 뉴질랜드 오클랜드 대학교에서 통계 및 그래프 작업을 위해 개발한 Open Source(이게 제일 중요하다! 공짜!) 기반의 프로그래밍 언어로, 다른 사람들이 만들어놓은 통계 관련 패키지들을 무수히 쓸 수 있고, 간단한 방법을 통해 시각화할 수 있다. 

나아가, 요즘 핫한 빅 데이터 프로세싱, 데이터 마이닝, 기계학습 등에 유용하며, 물론 SAS, STATA와 같은 상용 소프트웨어보다는 어렵다곤 하지만(애초에 이 친구들은 유료고 비싸다!), 필자도 두 달 독학하고, 바로 프로젝트에서 써먹을 수 있을 정도로 누구든지 쉽게 접근(다시 한번 반복하지만 공짜다!)할 수 있는 쉬운 언어라고 할 수 있다.

R은 데이터를 다루는데 있어 굉장히 특화된 언어이기 때문에, 코드를 짜기가 상당히 쉽고, 데이터를 담고 눈으로 확인하기도 쉽기 때문에, 테스트 데이터를 이용해서 선험적으로 알고리즘의 구현 가능성과 수정 사항 등을 파악한 후, C나 Python 같은 일반 프로그래밍 언어로 바꾸는 경우가 많다.

자! 이 이상으로 R에 대해 자세한 정보는 위키피디아나 다른 싸이트를 참고하길 바라며, 상대를 아는데 가장 좋은 방법은 실전이므로, 이제부터 본격적으로 R의 세상 속에 빠져보도록 하자!

728x90
반응형

+ Recent posts