kaggle 필사 스터디 첫째 주 세션에서는 kaggle 페이지를 둘러보며 kaggle 시스템에 대해 이해하고, 스터디원들끼리 스터디 규칙을 함께 정하는 시간을 가졌습니다.
1. What is kaggle ?
캐글(kaggle)은 데이터 사이언스 경진대회 플랫폼입니다.
즉, 데이터를 분석하는 대회가 열리는 곳으로, 어떤 회사에서 주요 서비스나 연구 과제에 활용할 목적으로 분석이 필요한 데이터를 제공하고 상금을 걸어두면 전세계의 참가자들이 경쟁하면서 각자 분석한 결과의 우수성이나 기여도 등에 따라 상금이 배분되는 생태계를 이루고 있습니다.
캐글에서는 초보자들도 자유롭게 연습해볼 수 있는 학습용 Competition들도 있어 머신러닝, 딥러닝에 대해 학습할 수 있는 가장 좋은 플랫폼입니다. 마치 알고리즘을 공부할 때 BOJ에서 학습하는 것이 유용한 것처럼요 !
캐글에서는 보통 R과 Python을 많이 사용하며, 본 스터디에서는 Python을 사용합니다. 또한, 필사를 통해 실력을 충분히 성장시킬 수 있기 때문에 Python을 공부해본 경험이 있다면 본 스터디는 누구나 참여 가능합니다.
2. 스터디 일정
본 스터디는 아래와 같은 일정으로 총 13주 동안 진행됩니다. 중간고사, 기말고사로 각 2주동안 휴회할 예정이기 때문에 스터디는 1월 말에 마무리될 예정입니다. 스터디 커리큘럼은 이유한님께서 정리해주신 캐글 필사 커리큘럼을 상당 부분 참고했습니다.
3. 캐글 이해하기
• Competition : 캐글에서는 데이터 분석 실력을 겨루는 데이터 분석 경진대회인 Competition이 열립니다. 새로운 사용자가 입문할 때는 'Getting Started' 라는 대회에 참여하면 됩니다. 이는 가장 접근하기 쉽고 반영구적인 대회로, 이미 캐글을 거쳐간 수많은 사람들이 낸 코드들을 참고할 수도 있어 실력을 기르는 데 많은 도움을 받을 수 있습니다.
• Leaderboard : 캐글에서는 각 competition에서 좋은 성과를 낸 사람들의 순위를 Leaderboard를 통해 보여줍니다. 여기에 올라온 예측 결과에 대한 잠정 순위는 주기적으로 업데이트되며, Getting Started의 경우 2달에 한 번씩 업데이트된다고 합니다.
• Dataset : 캐글에서는 다양한 데이터셋도 다운받을 수 있습니다. 이 중 학술 목적으로 공개되었거나 kaggler가 공유한 데이터들은 누구나 자유롭게 사용할 수 있습니다.
• Discussions : 문제를 해결하다가 모르는 점이나 궁금한 점이 생길 때는 Discussion을 이용하면 됩니다. kaggle을 이용하는 kaggler들이 질문에 대해 답을 달아주며, 또한 다른 kaggler의 궁금증을 내가 해결해줄 수도 있어요 ! Discussions을 통해 전 세계의 kaggler들과 소통해보세요.
• Code : 캐글에서 자체적으로 제공하는 데이터 분석용 프로그래밍 환경입니다. 자유롭게 Notebook을 생성하여 코드를 짤 수 있으며, 다른 사람들이 짠 코드를 둘러볼 수도 있어요. 사용 제한 없이 자유롭게 쓸 수 있으며, GPU는 1주일에 30시간까지 사용가능하다고 하니 참고합시다.
• Rankings : 캐글은 4개의 카테고리(Competition, Dataset, Kernel, Discussion)와 5개의 등급(Novice, Contributor, Export, Master, Grandmaster)으로 Ranking을 세웁니다. 각각 4개의 카테고리에서 다시 5개의 등급으로 나뉘며, 특히 이 중에서 Competition Grandmaster 지위는 전 세계적으로 240명 남짓할 정도로 획득하기 어렵기 때문에 이 등급을 달성하면 상당한 실력자라고 인정을 받을 수 있습니다. 최근 한국에서도 6번째 Grandmaster가 나왔다는 반가운 소식도 있었습니다.
위에서 소개한 기능들 이외에도 캐글은 대회 참여 스킬을 기를 수 있는 다양한 Courses와 개인별 맞춤형으로 다양한 토픽이 표시되는 뉴스피드 기능 등 다양한 기능들이 준비되어 있어 매우 유용한 곳입니다.
4. 캐글의 장점
그렇다면 캐글을 잘하면 구체적으로 어떤 점이 좋을까요 ? 크게 3가지의 장점이 있습니다.
1) 상금 지급 : 각 Competition에 참여하면 1~3등 혹은 1~10등에게는 높은 금액의 상금을 지급해줍니다. 수천 달러에서 높게는 수만, 수백만 달러에 이르기까지 상금의 금액은 다양합니다. 코드를 잘 짜서 순위권 안에 들면 성취감과 더불어 높은 상금까지 받을 수 있어 일석이조의 효과를 누릴 수 있습니다.
2) 채용 기회 : 대회를 주최한 기업에서 내가 제출한 코드를 보고 채용하고 싶어할 수도 있습니다. 자연스럽게 채용 인터뷰에 응할 기회가 주어지기도 하겠죠!
3) 포트폴리오 : 개발자라면 필수 요소로 Gitgub을 관리하듯 kaggle 역시 탄탄한 포트폴리오로서 관리할 수 있습니다. 꾸준히 열심히 하는 모습을 기록해둔다면 역시 나중에 채용할 때 유용하게 사용할 수 있을 겁니다.
이 외에도 GPU나 태블릿 단말기 등의 상품을 받거나 학회에서 발표할 수 있는 기회가 주어지기도 한다고 합니다. 다양한 기회가 열려있는 캐글 ~
앞으로 약 세달 간 캐글 필사 공부를 하며 이루고 싶은 Crazy Three로 위와 같이 목표를 세웠습니다 🙌
자유롭고 자율적인 스터디 분위기를 조성하여 누구나 부담없이 참여할 수 있는 스터디가 되었으면 합니다. 또 모르는 건 적극적으로 같이 공유하며 질문을 통해 상호 성장할 수 있는 시간이 되길 바랍니다. 이렇게 실력을 쌓아 나중에 스터디 내부에서 팀을 꾸려 competition에 참여하여 좋은 결과까지 내보는 것이 최종 목표입니다!
열심히 목표를 달성하고 있는지 앞으로 많은 관심으로 지켜봐주세요 😁
'3-1기 스터디 > 캐글 필사' 카테고리의 다른 글
[6주차] Zillow House Value Prediction (0) | 2021.11.29 |
---|---|
[5주차] Dynamics of New York city - Animation (0) | 2021.11.17 |
[4주차] Costa Rican Household Poverty Level Prediction (0) | 2021.11.14 |
[3주차] 자동차 보험회사 데이터분석 (0) | 2021.11.07 |
[2주차] 타이타닉 데이터 분석 : 생존율 예측하기 (0) | 2021.10.17 |
댓글