dacon#hdat
-
데이콘 관련 Tip(High scoring)머신러닝/FAQ 2022. 9. 1. 11:48
지극히 주관적인 포스팅입니다. 참조만 해주시면 감사드립니다. 단시간에 높은 점수를 받는 하나의 방법입니다. EDA 관점 (1) 최초 데이터 확인하고 train / test set이 10~100만개(행 기준) , 40개 이상 열 , 5~100MB 급의 데이터 일 경우는 pycaret 비추천(모든 모델을 돌리는 방식이라 느림) Preprocessing 관점 (2) 가벼운 RandomForest 모델 / 결측치 제거 , 라벨링 등의 최소한의 전처리를 통한 예측 값 도출 -> submission & 리더보드 체크 Regression(회귀)문제이면 y 값은 반드시 log1p 처리 후 expm1을 통해 복구 후에 리더보드 제출해야함 1. 데이터 전처리 Select Or Drop 1) subplot을 통해 데이터 분..