본문 바로가기
  • GDG on campus Ewha Tech Blog

3-1기 스터디/캐글 필사9

[3주차] 자동차 보험회사 데이터분석 kaggle 필사 스터디 3주 차에서는 브라질 보험회사 데이터를 통해 보험을 청구할 확률에 대해 예측하는 코드를 학습했습니다 위와 같은 프로세스로 진행되었습니다 데이터 관찰 기본 정보로 59만개 train 데이터, 89만개 test 데이터가 있다는 점을 알 수 있습니다. Feature가 정확히 무엇인지 모르고 binary, categorical, interval 혹은 Ordinal feature인지만 구분합니다. feature -1이면 결측 치/ target은 1: 보험처리를 함, 0: 보험처리를 하지 않음이란 특징을 가지고 있습니다. Metadata 데이터 관리를 위해 메타데이터용 데이터프레임을 만들었는데 이런 방법은 특정 변수를 선택하거나 시각화, 모델링 할때 유용할 수 있습니다. groupby 함수.. 2021. 11. 7.
[2주차] 타이타닉 데이터 분석 : 생존율 예측하기 kaggle 필사 스터디 2주 차에서는 타이타닉 데이터를 분석하여 생존율을 예측하는 코드를 공부했습니다. 위는 저희가 사용한 타이타닉 데이터이며, 아래는 필사한 코드 중 일부로 학습 모델에 정돈된 데이터를 넣어 예측율을 구하는 과정입니다. 이번 타이타닉 생존율 예측하기 데이터 분석은 아래와 같은 전체적인 프로세스를 갖고 있었습니다. 먼저 데이터셋을 확인(어떤 feature들을 갖고 있는지 또는 null data 존재 유무등을 파악)하고, 탐색적 데이터 분석, exploratory data analysis를 통해 데이터를 탐색했습니다. 그다음 모델에 넣을 데이터를 모델의 성능 향상을 위해 engineering하여 sickit learn을 이용해 학습 모델을 만들고, 모델을 학습시킨 후, 예측 성능이 원하는.. 2021. 10. 17.
[1주차] 캐글 시스템의 이해 kaggle 필사 스터디 첫째 주 세션에서는 kaggle 페이지를 둘러보며 kaggle 시스템에 대해 이해하고, 스터디원들끼리 스터디 규칙을 함께 정하는 시간을 가졌습니다. 1. What is kaggle ? 캐글(kaggle)은 데이터 사이언스 경진대회 플랫폼입니다. 즉, 데이터를 분석하는 대회가 열리는 곳으로, 어떤 회사에서 주요 서비스나 연구 과제에 활용할 목적으로 분석이 필요한 데이터를 제공하고 상금을 걸어두면 전세계의 참가자들이 경쟁하면서 각자 분석한 결과의 우수성이나 기여도 등에 따라 상금이 배분되는 생태계를 이루고 있습니다. 캐글에서는 초보자들도 자유롭게 연습해볼 수 있는 학습용 Competition들도 있어 머신러닝, 딥러닝에 대해 학습할 수 있는 가장 좋은 플랫폼입니다. 마치 알고리즘을 .. 2021. 10. 9.