๊ณต๋ชจ์
1. ์ฃผ์ : ์ฑ ์ฌ์ฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํตํ ๋์ถ์ ์ฒญ ์์ธก๋ถ์ (๊ณต๋ชจ์ ๊ด๋ จ ๋งํฌ)
- ๊ฐ๋ช ํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ๊ฐ์ ๋์ถ์ํ ์ ์ฒญ์ฌ๋ถ ์์ธก (2022๋ 3~5์ ๋ฐ์ดํฐ์ ๊ณต / 2022๋ 6์ ์์ธก)
- ์์ธก๋ชจ๋ธ์ ํ์ฉํ์ฌ ํ์์ ๋ฐ์ดํฐ ๋ถ์ ์ํ
- ๋์ถ์ ์ฒญ, ๋ฏธ์ ์ฒญ ๊ณ ๊ฐ์ ๋ถ๋ฅํ์ฌ ๊ณ ๊ฐ์ ํน์ฑ ๋ถ์๊ฒฐ๊ณผ ๋์ถ
2. ์ ๊ณต ๋ฐ์ดํฐ : ์ ์ฉ์ ๋ณด ๋ฐ์ดํฐ (๊ณ ๊ฐ์ ๋ณด, ๋์ถ์ ์ฒญ๊ฒฐ๊ณผ ๋ฑ)
3. 1์ฐจ ์ฌ์ฌ (์๋ฅ) : ๊ณ ๊ฐ ๋น ๋์ถ ์ ์ฒญ ์ฌ๋ถ ์์ธก, ๋ฐ์ดํฐ ์์ง, ์ ์ฒ๋ฆฌ ๊ณผ์ , ์์ธก ๋ชจ๋ธ ํด์(ํ์)
Summary
1. ์ฐธ์ฌ ์ธ์ : 4๋ช
2. ์ค๋น ๊ธฐ๊ฐ : 2022.09~2022.10 (์ฝ 6์ฃผ)
3. ๋ถ์ ๊ณผ์
- ๋ชฉ์ ์ค์ : ํ๋ค์ ๋์ถ ์์ฅ์ ๋ํ ์ฌ์ ์กฐ์ฌ๋ฅผ ํตํด "๋์ถ ์ธ์ ๋ณํ์ ์ง์ ์ฅ๋ฒฝ ์ํ"๋ก ๋ชฉ์ ์ค์
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ์ ๊ณต ๋ฐ์ดํฐ์ ์ธ๋ถ ๋ฐ์ดํฐ(ํ๊ตญ์ํ ํ์ค๊ธ๋ฆฌ, ๊ตญ๋ฏผ ์ ์ฉ์ ์ ๋ถํฌ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ํผ์ฒ ์์ฑ
- ์๊ณ์ด ํผ์ฒ : Data Leakage ๋ฐฉ์ง ์ํด 3์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ 4์ ๋ฐ์ดํฐ ํผ์ฒ ์์ฑ, 4์ ๋ฐ์ดํฐ ์ด์ฉํ์ฌ 5์ ๋ฐ์ดํฐ ํผ์ฒ ์์ฑ...
- ๋ฒ์ฃผํ ํผ์ฒ : One-Hot-Encoding
- ⇒ ์ด 81๊ฐ์ ํผ์ฒ ์์ฑ
- ๋ฐ์ดํฐ ์์ธก
- ์๊ณ์ด ๋ฐ์ดํฐ, ์๊ฐ ์์ผ๋ก ๋ฐ์ดํฐ ๋๋์ด ์ฌ์ฉ (4์ : Train Data / 5์ : Validation Data / 6์ : Test Data)
- ์ด์์น ์ค์ผ์ผ๋ง
- ๋ถ๊ท ํ ๋ฐ์ดํฐ, Oversampling (SMOTE)
- ๋ชจ๋ธ๋ง : LGBM, ExtraTree, CatBoost ๋ชจ๋ธ ๋ฐ Ensemble ์ด์ฉ
- ๊ตฐ์ง ๋ถ์
- ์์ ์์ธก์์ 0, 1์ ๋ถ๋ฅ ์ ์ค์๋๊ฐ ๋์ ํผ์ฒ๋ฅผ ๋์ถ ์ง์ ์ฅ๋ฒฝ์ ๋ํ ์ธ์๊ณผ ๋์ ๊ด๊ณ๊ฐ ์๋ค๊ณ ํ๋จํ์ฌ ํด๋น ํผ์ฒ๋ฅผ ํตํ ๊ตฐ์งํ ์งํ
- KMeans์ ์ค๋ฃจ์ฃ ๊ณ์๋ฅผ ์ฌ์ฉํ์ฌ 3๊ฐ ๊ตฐ์ง์ผ๋ก ๋๋์ด ๊ตฐ์ง๋ณ ๋ ธ์ถ ๋ฉ์ธ์ง ์ ์
4. ์ต์ข ์ ์ถ ppt
๋๊ธ