와인 성분 데이터로 와인 품질 분류
in Project on University
1. Toy Project - 와인 품질 분류
Member : 김경록
Status : Complete
사용언어 : python
핵심 라이브러리 : Pandas, matplotlib, seaborn, sklearn, LightGBM
2. Why
와인의 성분에 따라서 맛이 변하고,
이를 평가하는 사람들에게서 평가가 달라진다
그렇다면 최상급의 와인을 만들기 위해서 필요한 성분은 무엇이며,
사람이 아닌 시물레이션을 통해서
이러한 품질을 분류할 수 있게 한다면
비용이 절감되지 않을까 라는 생각으로 출발하였다.
3. Data
Kaggle 데이터 : 레드 와인 성분 + 와인 품질
4. 분석 방법
(a). Data Preprocessing
- EDA (독립변수 correlation plot, histogram, boxplot)
- 반응 변수 그룹화 : (와인품질 3~8점) / 5점 이하 -> low rank, 6점 이상 -> high rank
- Data Reduction : EDA 시각화 이후, 각 변수의 상위 5%의 이상치 값 제거
(b). Model & Algorithms
- Logistic Regression, RandomForest, LightGBM
--> 기본 버전 및 paramter 개선을 통해 정확도, auc 개선 사항 확인
(c). Report & Review
- 기본 버전 및 paramter 개선을 통해 정확도, auc 개선 사항 확인
- 전반적인 머신러닝 flow 학습 및 파이썬 기초 코딩 능력 습득
- 피드백 : 모델링 이전 part에 집중하여,
실제 머신러닝 개선을 복잡하고 다양하게 시도하는 방법은 미 시도 한채로 종료함.
보러가기: 와인 품질 분류 코드
- 요약 내용