김창우 | 👑박인애 | 신진영 | 이승우 | 이현주 |
2024.07.01 ~ 2024.07.26
2024.08.01 ~ 2024.08.30
- 고용노동부
- 한국경영자총협회
- 대한상공회의소
- 한경닷컴
- 엘리스코딩
- LG AI 연구원
- 차량 디스플레이 생산
- Sub Assembly Line
- Dam(레진도포&반경화) → AutoClave(탈포) → Fill1(내측도포) → Fill2(UV경화)
- 합착, 완전 경화 공정에 대한 데이터셋은 주어지지 않아서 생산 과정에서 일어나는 모든 불량 유형을 예측할 수 없음
- 이물, 기포, Misalign, Crack, Broken, Dirty, …
- 주어진 데이터셋에 불량 유형을 명시한 라벨은 없음
- 학습 데이터셋: 40506 rows
- 테스트 데이터셋: 17361 rows
- 컬럼 수: 464 columns
- Normal
- AbNormal
- Normal: 38156, AbNormal: 2350
- 겉으론 수치값이지만 대부분 범주형 데이터
- 범주형 데이터 처리에 효과적인 CatBoost가 ML 중 가장 성능이 높았음
- 결측값이 많음
- 좌표 컬럼 외에 상관관계가 낮음
- csv 파일
Ensemble Learning Soft Voting
CatBoost | XGBoost | GradientBoost | LightGBM | RandomForest |
- 결측치 처리
- 이상치 처리
- 인코딩
- 다중공선성 제거
- 공정 별 중복 데이터 처리
- 불균형 데이터 처리
- 데이터 증강
- 정규화
- 스케일링
- PCA, UMAP
- 변수 중요도 분석
- 상관 관계 분석
- 파생변수 생성
- 변수 선택
- 변수 순서 조정
- 교차검증
- ML 앙상블
- 하이퍼 파라미터 조정
- Voting, Bagging, Boosting, Stacking 성능 비교
- Overfitting 해결
Python | 판다스 | 사이킷런 | pycaret |
- Final Rank: 56등 / 740팀 (Top 100 내 선정)
- Final Score: 0.215569
리더보드 보러가기 |