- Titanic tutorial(Random Forest 사용) 의 성능인 0.77511 보다 좋은 성능 내기
- Pandas, Numpy, Matplotlib 익숙해지기
- 눈으로 분석
- Correlation
- PCA
- Visualization
- train, test set으로 나누기.
- NaN값 처리
- 데이터의 유형 파악
- Numerical
- Categirical
- 중요한 것은 Vectorization
- Normalization
- K-Fold 학습
- train, validation set 나누기
- Overfitting, Underfitting 이해하기
- 다양한 모델 공부하기
- Linear Models
- Decision Tree Models
- Clustering Models
- Boosting Models
- Deep Learning Models
- 결과 해석 및 개선 여지 파악